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本 章 学 习 目 标 

。 学 习 社 会 网 络 、 社 会 网 络 大 数据 .网 络 与 情 与 企业 网 络 与 
。 理解 社会 网 络 计算 的 研究 内 容 。 

。 了 解 企业 社会 网 络 与 情 的 特点 。 


1.1 社会 网 络 
近年 来 ,在 新 的 功能 、 技 术 和 标准 的 推动 下 ,网 络 变 得 更 加 社 


会 化 和 互联 化 ,社交 性 网 络 平台 得 到 了 前 所 未 有 的 迅猛 发 展 。 这 
些 网 络 平台 (包括 移动 网 络 平台 ) ,如 ,Facebook Twitter, # IN tik 


博 、 微 信 、 网 易 新 闻 等 不 仅 聚 集 了 大 量 用 户 ,也 为 企业 提供 了 获取 
巨大 潜在 客户 资源 的 渠道 。 据 美国 调查 公司 Unity Marketing 调 
查 发 现 , 社 交 网 络 用 户 数量 已 经 占据 了 互联 网 用 户 总 量 的 40%。 

社会 网 络 (social network) 是 指 社会 个 体 成 员 之 间 因 为 互动 而 
形成 的 相对 稳定 的 关系 体系 。 在 社会 网 络 中 ,人 们 形成 了 “社交 
圈 ”“ 兴 趣 圈 ” 等 关系 。 从 狭义 上 来 说 ,社交 圈 是 我 们 日 常生 活 中 
与 朋友 、 同 学 .同事 之 间 的 各 种 关系 网 络 构成 的 一 个 人 际 轿子。 从 
广义 上 来 说 ,社交 圈 可 以 延伸 为 我 们 每 个 人 的 生活 圈 。 

社交 圈 的 存在 让 营销 者 更 为 欣慰 。 以 人 人 网 、Facebook 为 例 ， 
大 多 数 的 注册 会 员 都 是 来 自 于 各 个 高 校 的 学 生 , 即 便 日 后 工作 生 
活 变 迁 ,但 是 这 些 稳 固 的 同学 关系 却 不 会 消失 。 同 样 ,在 以 白领 为 
主要 客户 群体 的 开心 网 上 ,同事 间 的 关系 虽然 相对 于 同学 来 说 因 
为 变化 更 大 而 淡薄 一 些 ,但 是 依然 是 一 种 相对 稳固 的 人 际 关系 
(Poyry,2013)。 互 联网 社交 圈 的 建立 与 发 展 还 取决 于 社交 网 站 用 
户 的 交互 方式 (Backstrom,2006)。 社 交 圈 中 不 同 身份 的 人 的 影响 
力也 不 尽 相 同 (Stutzman,2006)。 

社交 圈 对 于 企业 进行 网 络 营 销 来 说 无 疑 有 着 积极 的 促进 作 
用 ,无 论 是 品牌 的 创建 或 者 是 促销 的 推进 ,在 稳定 网 络 中 的 传播 广 
度 与 深度 ,都 会 比 大 众 网 络 更 有 优势 。 

社交 圈 的 分 享 也 可 以 分 为 两 种 ; 一 种 是 消费 者 主动 的 分 享 ; 
一 种 是 营销 者 促使 的 被 动 分 享 。 被动 分 享 一 般 都 是 由 网 络 营 销 者 
来 促成 的 ,他 们 往往 会 针对 消费 者 、 潜 在 客户 的 商品 促销 信息 、 订 


单 信息 的 分 享 发布 行 为 给 予 一 定 的 奖励 ,以 这 种 激励 方式 达到 自 
己 的 促销 .品牌 传播 目的 。 

兴趣 圈 从 理论 上 看 ,其 范畴 应 该 要 比 社交 闪 更 大 一 些 。 相 对 
于 社交 网 站 的 社交 轿 为 主 的 状况 , 微 博 、 群 组 .知识 分 享 平 台 视频 
图 片 网 站 、 团 购 、LBS 服务 等 ,大 多 都 是 基于 兴趣 形成 的 社会 化 的 
关系 网 络 。 当 然 ,广义 上 来 说 这 种 因为 兴趣 而 产生 的 关系 网 络 也 
属于 社交 范畴 ,但 是 单纯 从 社会 网 络 的 类 别 、 数 量 上 来 区 分 的 话 ， 
因为 兴趣 而 形成 的 社会 网 络 应 用 种 类 更 多 、 品 种 更 齐全 。 

常见 的 社会 网 络 中 ,除了 社交 网 站 之 外 ,还 存在 大 量 的 其 他 网 
站 。 比 如 维基 百科 、 百 度 百科 为 代表 的 知识 分 享 平台 ,以 Twitter、 
新 浪 微 博 、 腾 讯 微 博 为 代表 的 微 博 平 台 , 以 YouTube、 优 酷 为 代表 
的 视频 分 享 网 站 ,以 Flickr 为 代表 的 视频 分 享 网 站 ,以 豆 狼 、 百 度 
文库 为 代表 的 文档 分 享 网 站 ,以 大 众 点 评 为 代表 的 消费 评论 网 站 ， 
甚至 包括 各 种 团购 网 站 ,以 及 以 微 信 为 代表 的 移动 用 户 端 上 的 平 
台 ,其 实 都 属于 兴趣 圈 网 络 的 范畴 。 

以 兴趣 圈 形 成 的 网 络 具 备 一 些 特殊 的 特性 , 那 就 是 社会 网 络 
的 自 优化 特性 。 以 最 典型 的 新 浪 微 博 为 例 , 对 于 一 个 商家 或 者 公 
众 意见 领袖 来 说 ,普通 的 网 民 与 之 形成 的 关注 同时 是 不 相互 关注 
的 关系 ,从 本 质 上 来 说 并 非 是 社交 关系 。 同 样 地 ,这 种 大 多 数 时 候 
的 单 向 互动 也 完全 不 符合 社会 网 络 的 互动 特性 ,而 只 是 类 似 于 更 
多 的 媒体 中 心 进行 的 单 向 信息 传递 而 已 (Bouras,2004)。 

对 于 商家 来 说 ,交互 从 来 也 都 不 是 充分 的 ,而 这 正 是 社交 图 之 
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所 以 存在 的 原因 和 价值 。 社 交 圈 可 以 分 为 陌生 人 购物 分 享 网 络 ， 
例如 蘑菇 街 、 美 丽 说 ,以 及 熟人 圈 社 交 网 络 例如 微 博 `. 人 人 网 等 。 
对 于 商家 ,他 们 更 关注 的 是 这 些 人 是 否 真正 地 对 他 们 的 商家 和 产 
品 感 兴趣 ,而 对 于 每 一 个 用 户 的 深度 交流 ,只 能 作为 一 个 远景 却 未 
必 能 实现 。 而 社会 网 络 活动 中 的 自 优化 功能 会 帮助 商家 找寻 到 最 
忠实 的 用 户 ,也 就 是 长 期 留存 下 来 的 稳定 网 络 。 

基于 社会 计算 的 领域 视角 ,本 章 通过 一 种 以 Web 2. 0 思想 为 
核心 的 社会 计算 模式 对 社会 网 络 进行 剖析 。 因 为 社会 计算 及 社会 
网 络 都 是 相对 较 新 颖 的 概念 。 本 小 节 重点 对 社会 计算 和 社会 网 络 
的 相关 概念 及 研究 成 果 做 出 较为 完善 的 阐述 。 


1.2 社会 网 络 大 数据 


在 实践 中 ,社会 网 络 的 数据 量 非常 大 ,形成 了 大 数据 。 大 数据 
指 的 是 所 涉及 的 资料 量规 模 巨 大 ,大 数据 这 个 术语 最 早期 的 引用 
追溯 到 apache org 的 开源 项 目 Nutch。 当 时 ,大 数据 用 来 描述 
为 更 新 网 络 搜索 索引 需要 同时 进行 批量 处 理 或 分 析 的 大 量 数据 
集 。 随 着 谷歌 MapReduce 和 Google File System(GFS) 的 发 布 ,大 

数据 不 再 仅仅 用 来 描述 大 量 的 数据 ,还 涵盖 了 处 理 数 据 的 速度 

最 早 提出 大 数据 时 代 到 来 的 是 全 球 著 名 管理 咨询 公司 麦 肯 
锡 ,麦肯锡 称 :“ 数 据 , 已 经 渗透 到 当今 每 一 个 行业 和 业务 职能 领 
域 ,成 为 重要 的 生产 因素 。 人 们 对 于 海量 数据 的 挖掘 和 运用 ,预示 


着 新 一 波 生产 率 增长 和 消费 者 盈余 浪潮 的 到 来 .” 

大 数据 一 词 由 英文 “Big Data” 翻 译 而 来 ,过 去 常 说 的 “信息 爆 
炸 ”“ 海 量 数据 ”等 已 不 足以 描述 这 个 新 事物 。 全 球 著名 管理 咨询 
公司 麦肯锡 的 报告 (大 数据 : 创新 、 竞 争 和 生产 力 的 下 一 个 前 沿 》 
对 大 数据 做 了 如 下 定义 : 大 数据 是 指 大 小 超出 了 传统 数据 库 软件 
工具 的 抓 取 存储、 管理 和 分 析 能 力 的 数据 群 。 

大 数据 在 物理 学 .生物 学 .环境 生态 学 等 领域 以 及 军事 、 金 融 、 
通信 等 行业 存在 已 有 时 日 ,近年 来 , 随 着 互联 网 和 信息 行业 的 发 
展 ,大 数据 引起 了 更 多 人 的 关注 。 大 数据 在 互联 网 行业 指 的 是 这 
样 一 种 现象 : 互联 网 公司 在 日 常 运营 中 生成 .累积 的 用 户 网 络 行 
为 数据 。 这 些 数据 的 规模 是 如 此 庞大 ,以 至 于 不 能 用 GB 或 TB 来 
衡量 ,大 数据 的 起 始 计 量 单 位 至 少 是 PB(1000 个 TB)、EB(100 万 
4 TB) aK ZB(10 {2% TB). 

在 信息 技术 不 发 达 的 年 代 ,存储 设备 的 价格 昂贵 ,数据 的 保存 
所 付出 的 代价 是 非常 大 的 。 随 着 科技 的 进步 ,存储 设备 便宜 了 , 数 
据 可 以 在 较 低 的 成 本 下 得 到 妥善 的 保存 ,用 户 自己 产生 的 数据 得 
到 了 重视 。 也 正 是 由 于 数据 的 价值 被 重视 了 ,因此 越 来 越 多 的 数 
据 被 持续 保存 ,大 数据 由 此 产生 。 网 络 数据 的 十 几 年 的 保存 产生 
了 大 数据 。 

大 数据 的 首要 特征 是 数据 量 大 。 截 至 2009 年 ,美国 几乎 所 有 
部 门 中 每 个 雇员 数量 在 1000 人 以 上 的 企业 所 存储 的 数据 平均 值 
至 少 为 200TB, 是 美国 零售 商 沃 尔 玛 1999 年 数据 仓库 的 两 倍 。 很 
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多 经 济 部 门 中 ,每 个 企业 平均 存储 数据 超过 1PB。 欧 洲 组 织 2010 
年 存储 容量 总 计 接 近 11EB, 大 约 为 整个 美国 存储 容量 的 70%。 全 
球 企业 2010 年 在 硬盘 上 存储 了 超过 7EB 的 新 数据 ,消费 者 在 PC 
和 笔记 本 电脑 等 设备 上 存储 了 超过 6EB 新 数据 ,而 LEB 数据 就 相 
当 于 美国 国会 图 书馆 中 存储 数据 的 4000 多 倍 。 数 据 容 量 增长 的 
速度 大 大 超过 了 硬件 技术 的 发 展 速度 ,以 至 于 引发 了 数据 存储 和 
处 理 的 危机 。 大 量 的 数据 会 被 处 理 掉 , 比 如 医疗 卫生 提供 商会 处 
理 掉 他 们 所 产生 的 90% 的 数据 (包括 手术 过 程 中 产生 的 几乎 所 有 
实时 视频 图 像 ) 。 

此 外 ,大 数据 不 只 是 大 。 海 量 数据 引发 的 危机 并 不 单纯 是 数 
据 量 的 爆炸 性 增长 ,还 牵涉 到 数据 类 型 的 改变 ,也 称 为 多 样 化 。 原 
来 的 数据 都 可 以 用 二 维 表 结 构 存 储 在 数据 库 中 ,如 常用 到 Excel 
软件 所 处 理 的 数据 , 称 为 结构 化 数据 。 但 是 现在 ,更 多 互联 网 多 媒 
体 应 用 的 出 现 , 使 诸如 图 片 .声音 和 视频 等 非 结 构 化 数据 占 到 了 很 
大 比重 。 有 统计 显示 ,全 世界 结构 化 数据 增长 率 大 概 是 32% ,而 非 
结构 化 数据 增长 率 则 为 63%。 预 计 未 来 用 于 产生 智慧 的 大 数据 ， 
往往 是 这 些 非 结构 化 数据 。 


13 ”社会 网 络 计算 


社会 网 络 计 算 , 也 称 社会 计算 ,是 对 社会 网 络 的 智能 计算 。 它 
作为 一 个 新 兴 跨 学 科 的 研究 领域 ,目前 还 没有 一 个 公认 的 定义 。 


不 过 ,我 们 可 以 从 社会 计算 出 现 的 背景 去 剖析 概念 ,将 社会 计算 概 
括 为 “用 社会 化 方法 计算 社会 ”, 具 体 包 含 两 层 意 思 , 即 “为 社会 计 
算 ” 和 “用 社会 化 方法 计算 ”。 

所 谓 “ 为 社会 计算 ”反映 了 社会 计算 研究 与 服务 的 对 象 是 社 
会 ,包括 虚拟 网 络 社 会 和 现实 社会 ,以 及 从 中 抽象 出 来 的 人 工 社 

。 从 这 个 角度 来 说 ,通过 信息 技术 方法 对 社会 数字 轨迹 进行 分 
析 ,了 解 社会 已 经 发 生 , 监 控 正 在 发 生 和 预测 将 要 发 生 的 事情 , 准 
确 地 把 握 社 会 的 动态 特征 和 运行 规律 ,预测 政策 实施 的 可 行 性 ,为 
虚拟 网 络 社会 的 科学 管理 和 政府 决策 提供 有 效 参考 。 

所 谓 “ 社 会 化 方法 ”就 是 以 “草根 ”客户 为 中 心 , 并 依靠 “草根 ” 
客户 的 方法 ,是 一 种 协同 和 群体 智能 的 方法 ,一 种 从 个 体 到 整体 ， 
从 微观 到 宏观 的 思维 模式 。 许 多 事件 都 是 由 无 数 网 民 的 “你 一 言 
我 一 语 ”" 和 微不足道 的 微观 行为 最 终 发 展 成 为 一 个 重大 的 社会 事 
件 或 浩大 工程 。 如 维基 百科 就 是 由 无 数 网 民 微不足道 的 努力 而 完 
成 的 巨大 的 百科 全 书 ,这 靠 少数 专家 是 无 法 完成 的 。 从 这 个 角度 
来 讲 ,社会 计算 是 一 el 2012; 梁 循 等 ， 
2014)。 可 以 看 出 ,社会 计算 本 质 就 是 对 社会 网 络 进行 智能 分 析 的 
过 程 。 

社会 计算 的 研究 对 象 是 社会 ,包括 现实 的 物理 社会 和 虚拟 的 
网 络 社会 (Moreno,2004; Cebi,2013) 。 前 者 主要 指 传统 意义 上 的 
社会 ,如 某国 家 或 地 区 ; 后 者 主要 指 基 于 Web 的 虚拟 网 络 社区 。 
从 广义 来 讲 , 整 个 Internet 就 是 一 个 虚拟 网 络 ,但 从 狭义 来 讲 , 虚 
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拟 网 络 主要 指 基 于 Web 2.0 的 ,强调 以 客户 为 中 心 的 虚拟 社区 ,如 
Facebook, Twitter 等 虚拟 网 络 。 但 需要 指出 的 是 ,尽管 社会 形态 
可 以 分 为 现实 物理 社会 和 虚拟 网 络 社会 ,但 两 者 又 是 紧密 相关 的 。 
虚拟 网 络 社会 是 对 现实 物理 社会 的 反映 ,研究 虚拟 网 络 社会 的 最 
终 目 的 还 是 为 现实 物理 社会 的 管理 服务 。 

从 微观 客户 层面 来 讲 , 社 会 计算 主要 关注 的 是 如 何 促进 客户 
与 客户 的 交互 ,以 及 通过 客户 交互 表现 出 来 的 客户 社会 影响 分 析 。 

(1) 客户 交互 研究 。 无 论 是 Web 2. 0 还 是 Facebook, Twitter 
等 虚拟 社会 网 络 系统 ,其 最 大 的 特点 就 是 强调 客户 与 客户 间 的 交 

互 , 实 现 的 是 人 与 人 的 互联 。 如 何 促进 人 与 人 的 交互 是 社会 计算 
研究 的 另 一 重要 内 容 。 一 般 认 为 , 随 着 Web 2.0 理念 的 深入 ,交互 
的 重点 已 经 从 传统 的 人 -机 交互 (human computer interface, HCI) 
转化 为 人 -人 交互 (human human interface, HHT)。 传 统 人 -机 交互 
强调 的 是 通过 设计 人 员 对 系统 形式 和 功能 的 控制 来 优化 软件 应 用 
及 界面 以 增加 系统 的 友好 性 ,而 人 -人 交互 更 注重 如 何 实现 人 与 人 
互联 ,信息 交换 与 知识 共享 ( 毛 基 业 ,2011)。 对 不 同 的 应 用 领域 ， 
人 -人 交互 的 模式 不 同 ,如 在 微 博 中 ,交互 方式 包括 跟 帖 .回复 、 粉 
丝 等 ; 在 微 信 等 人 际 关系 网 中 ,人 -人 交互 一 般 显 性 表现 为 加 某 某 
为 好 友 。 

(2) 客户 影响 分 析 。 通 过 客户 间 的 交互 (回复 、 跟 帖 、 加 为 好 
KE) ,客户 与 客户 间 形 成 一 定 的 影响 关系 ,并 会 逐步 形成 社会 网 
络 中 的 影响 力 (Ghosh 和 Lerman,2010) 。 客 户 影响 力 分 析 主 要 研 


究 如 何 基 于 客户 的 交互 活动 水 平 (activity level) 来 研究 客户 与 客 
户 是 如 何 影 响 的 ,以 及 客户 在 社会 网 络 中 的 影响 力 大 小 。 具 体 来 
讲 , 影 响 分 析 包 括 影 响 关 系 分 析 和 影响 力 分 析 。 影 响 关 系 分 析 是 
划分 客户 间 影 响 关 系 的 研究 ,影响 力 分 析 用 于 度量 客户 在 社会 网 
络 中 的 重要 程度 。 有 较 多 学 者 基于 博客 .论坛 行为 (提交 、 评 论 
等 ) ,采用 Web 挖掘 的 方法 和 语义 分 析 的 方法 研究 博客 .论坛 客户 
的 影响 力 。 从 模型 来 讲 , 度 量 客户 影响 力 通常 表现 为 寻找 最 重要 
的 节点 ,目前 主要 有 两 类 : 第 一 类 是 基于 最 小 路 径 (geodesic path) 
的 方法 , 如 距离 中 心 (closeness centrality)、 图 中 心 (graph 
centrality) ,中 介 中 心 度 (betweenness centrality) 等 ; 第 二 类 是 基 
于 拓扑 结构 的 方法 ,包括 基于 马尔 柯 夫 的 方法 (如 PageRank 算法 、 
HITS 模型 ) E HD (degree centrality) 的 方法 、 基 于 路 径 的 方法 
(如 a-centrality、SenderRank 等 ) 。 


1.4 Bi. WARP Se MAR 


如 果 要 分 析 网 络 和 与 情 的 含义 ,首先 要 理 清楚 与 情 的 概念 ,因为 
网 络 只 是 与 情 传播 在 现代 社会 的 载体 ,只 是 与 情 的 传播 具备 了 新 
的 特性 而 已 。 而 对 于 与 情 具 体 的 概念 ,不 同 的 学 者 也 有 不 同 的 看 
法 ,目前 较为 流行 的 有 关 和 与 情 的 定义 主要 有 以 下 几 种 : 

狭义 与 情 的 定义 , 王 来 华 (2003) 在 ( 熏 情 研究 概论 ) 中 将 与 情 
定义 为 “在 一 定 的 社会 空间 内 ,围绕 中 介 性 社会 事项 的 发 生 、 发 展 
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和 变化 ,作为 主体 的 民众 对 作为 客体 的 国家 管理 者 产生 和 持 有 的 
社会 政治 态度 。 "虽然 作者 将 民众 的 意愿 限定 在 民众 的 社会 政治 态 
度 方 面 ,但 是 , 它 所 包含 的 与 情 对 于 国家 管理 者 的 利益 关系 变 得 更 
加 突出 。 

偏重 于 民意 的 定义 , 张 克 生 (2004) 在 其 专著 中 将 与 情 定义 为 
“国家 决策 主体 在 决策 活动 中 必然 涉及 的 ,关乎 民众 利益 的 民众 生 
活 ( 民 情 ) ,社会 生产 (民力 ) 和 民众 中 蕴含 的 知识 和 智力 (民智 ) 等 
社会 客观 情况 ,以 及 民众 在 认 知 、 情 感 和 意志 基础 上 ,对 社会 客观 
情况 以 及 国家 决策 产生 的 主观 政治 态度 。” 

较为 全 面 的 定义 则 是 刘 毅 (2007a) 在 《网 络 与 情 研 究 概 论 》 中 
表述 的 :“ 与 情 是 由 个 人 以 及 各 种 社会 群体 构成 的 公众 ,在 一 定 的 
历史 阶段 和 社会 空间 内 ,对 自己 关心 或 与 自身 利益 紧密 相关 的 各 
种 公共 事务 所 持 有 的 多 种 情绪 意愿 .态度 和 意见 交错 的 总 和 。” 因 
为 民众 的 与 情 所 指 并 不 一 定 都 指向 国家 管理 者 ,如 果 具 体 到 企业 
与 情 更 是 如 此 ,例如 马 航 事件 ,包含 民众 的 一 种 关怀 与 “ 泛 亲情 ”， 
也 包含 对 马 航 公司 的 谨 责 等 等 ,可 以 说 是 同时 多 种 意见 与 情绪 的 
集合 。 

由 此 ,我 们 认为 网 络 与 情 是 社会 与 情 的 一 种 具体 表现 形式 ,是 
公众 在 Internet 上 公开 表达 的 对 某 种 现象 .问题 或 具体 事物 的 具 
有 一 定 影响 力 和 倾向 性 的 共同 意见 的 集合 。 而 企业 网 络 与 情 则 将 
网 络 与 情 进一步 缩小 ,限于 企业 这 个 主体 相关 的 与 情 内 容 。 因 此 ， 
我 们 所 使 用 的 企业 网 络 与 情 定 义 为 :“ 由 个 人 以 及 各 种 社会 群体 
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构成 的 公众 ,在 一 定 的 历史 阶段 和 社会 网 络 空间 内 ,对 自己 关心 或 
与 自身 利益 紧密 相关 的 特定 企业 的 产品 、 经 营 和 管理 ,通过 网 络 表 
达 的 多 种 情绪 ,意愿 ,态度 和 意见 的 集合 .” 企 业 网 络 与 情 借 助 于 网 
络 的 传播 ,是 网 络 熏 情 在 互联 网 空间 的 进一步 降 维 映 射 。 

近年 来 ,舆情 监控 成 为 国家 管理 互联 网 的 一 种 必要 技术 
(Liang 等 ,2012) 。 利 用 计算 机 智能 技术 ,可 以 将 各 种 人 类 情感 转 
化 成 实 实在 在 的 数值 型 数据 。 情 感 倾向 性 分 析 比 较 系统 的 研究 工 
作 ,开始 于 基于 监督 学 习 方 法 对 电影 评论 文本 进行 情感 倾向 性 分 
类 和 基于 无 监督 学 习 对 文本 情感 倾向 性 分 类 的 研究 ( 王 超 等 ， 
2009; 桂 研 和 杨 小 平 ,2015)。 情 感 倾 向 性 分 析 也 称 为 情感 分 类 、 
情感 分 析 文本 意见 挖掘 .观点 挖掘 等 ,涉及 自然 语言 处 理 、 信 息 检 
R ,数据 挖掘 等 研究 领域 。 一 般 分 为 文档 级 观点 挖掘 和 语句 级 观 
点 挖掘 ,其 情感 倾向 包括 简单 的 赞同 \ 反 对、 中立 三 种 态度 ,也 包括 
对 某 一 对 象 所持 态 度 的 强度 ,甚至 熏 论 对 该 对 象 的 具体 看 法 和 态 
度 等 。 情 感 倾向 性 分 析 目 前 已 经 获得 了 很 大 程度 的 发 展 ,特别 是 
在 线 评 论 的 情感 倾向 性 分 析 ( 叶 强 ,2007) 获 得 了 很 大 的 发 展 。 目 
前 基于 在 线 评论 文本 的 情感 倾向 性 分 析 的 准确 率 最 高 能 达到 90% 
以 上 ( 杨 源 等 ,2012; 施 晓 戎 和 梁 循 ,2015)。 为 了 找 出 评论 的 情感 
倾向 性 ,我 们 需要 借助 的 智能 手段 包括 自然 语言 处 理 、 机 器 学 习 、 
文本 挖掘 等 ,从 而 实现 利用 计算 机 自动 地 识别 出 互联 网 文本 的 感 
情 取 向 ( 梁 循 ,2006; Liang 等 ,2008; Liang,2010; He 和 Zhou. 
2011; Neviarouskaya 等 ,2011; Liang 和 Ni.2011; 胡 百 精 ,2013) 。 
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传统 上 ,公司 会 为 了 了 解 这 些 信 息 进 行 用 户 问卷 调查 ,这 需要 
花费 很 多 人 力 对 用 户 满 意 度 进行 调查 和 对 问卷 进行 分 析 。 这 种 调 
查 的 有 效 性 通常 是 很 有 限 的 ,原因 是 调查 样本 大 小 的 限制 和 制造 
有 效 的 调查 问卷 表 的 困难 。 如 果 能 够 通过 在 线 文本 (如 Web 网 
页 .聊天 室 和 新 闻 文本 ) 的 内 容 分 析 , 自动 探测 和 分 析 对 感 兴趣 话 
题 的 “喜爱 度 ”, 人 们 就 可 以 很 容易 地 识别 这 些 在 线 文 本 中 的 自然 
的 评价 。 


1.5 企业 社会 网 络 熏 情 的 特点 


随 着 社会 网 络 影响 力 的 增强 , 越 来 越 多 的 公司 开始 关注 企业 
自身 在 社会 网 络 交互 口碑 与 情 传播 中 的 重要 作用 (Ye,2012)。 目 
前 社会 网 络 大 数据 环境 下 ,企业 社会 网 络 与 情 的 主要 传播 渠道 包 
括 网 络 新 闻 媒体 、 网 络 博客 、 社 会 网 络 平台 ( 微 博 、 微 信 、QQ 等 ) 以 
及 在 线 商 品 销售 平台 ,企业 社会 网 络 与 情 的 特性 也 与 其 传播 方式 
息息相关 ,主要 包括 以 下 几 个 方面 ( 刘 毅 ,2007b; 吉祥 ,2010; BE 
伟 ,2012) 。 

(1) 虚拟 性 : 网 络 空间 的 虚拟 性 打破 了 传统 的 物理 空间 的 界 
BR ,是 一 个 无 形 无 界 的 信息 空间 。 信 息 的 提供 者 、 传 播 者 和 阅读 者 
之 间 的 角色 没有 明显 的 界限 ,逐渐 形成 一 种 “真实 而 又 虚拟 的 沟通 

(2) 实时 性 : 网 络 与 情 的 实时 性 主要 体现 在 信息 传输 的 速度 
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上 ,由 于 现代 技术 的 应 用 以 及 手机 、pad 等 移动 用 户 端 信息 推送 功 
能 的 增强 ,在 社会 网 络 中 进行 信息 的 传播 与 散布 成 本 大 大 降低 , 同 
时 传播 的 速度 也 极 快 地 增加 。 

(3) 交互 性 : 交互 性 是 指 网 络 参与 主体 利用 互联 网 可 以 通过 
实时 交互 操作 的 方式 发 表 、 传 播 和 反馈 各 种 媒体 信息 。 网 民利 用 
网 络 普遍 表现 出 强烈 的 参与 意识 ,可 以 不 受 时 间 和 空间 的 限制 进 
行 交 流 。 

(4) DRE: 在 网 络 社会 中 ,由 于 生活 圈子 狭小 ,一 旦 人 在 意 
见 上 陷入 孤独 ,往往 也 意味 着 他 在 其 他 方面 也 陷入 孤独 ,从 而 产生 
“从 众 心理 ”。 网 络 空 间 使 人 们 的 交往 范围 大 大 扩大 ,人 们 总 能 在 
广阔 的 虚拟 空间 中 找到 拥有 同样 价值 观 、 兴 趣 和 关注 点 的 人 群 , 这 
就 是 网 络 与 情 的 易 感 性 。 

(5) 丰富 性 : 网 上 与 情 的 主题 极为 宽泛 ,话题 的 确定 往往 是 自 
发 .随意 的 。 从 与 情 的 话题 来 看 ,涉及 政治 、 经 济 .文化 .军事 .外 交 
以 及 社会 生活 的 各 个 方面 ; 从 与 情 来 源 上 看 ,网 民 可 以 在 不 受 任 
何 干扰 的 情况 下 预先 写 好 言论 ,随时 在 网 上 发 布 ,发 表 后 的 言论 可 
以 被 任意 评论 和 转发 。 

(6) 开放 性 : 互联 网 采用 开放 的 网 络 结构 ,使 得 企业 社会 网 络 
与 情 的 传播 平台 也 具有 开放 性 的 结构 ,这 便 决定 了 企业 社会 网 络 
与 情 传播 方式 的 开放 性 。 各 种 网 络 交流 平台 为 受众 提供 了 信息 共 
享 和 互动 的 渠道 , 它 打 破 了 人 与 人 之 间 交 流 的 时 间 和 空间 的 限制 ， 
实现 了 人 们 能 够 随时 随地 进行 交流 ,扩大 了 信息 共享 的 范围 。 
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(7) REE: 网 络 熏 论 的 形成 非常 迅速 ,这 是 传统 媒体 无 法 比 
拟 的 ,一 个 热点 事件 的 存在 加 上 一 种 情绪 化 的 意见 ,就 可 以 成 为 点 
燃 一 片 熏 论 的 导 火 索 。 网 络 参 与 主体 之 间 很 少 进行 有 效 的 沟通 ， 
某 一 事件 发 生 时 ,网 民 可 以 立即 在 网 络 中 发 表意 见 和 观点 ,这 些 来 
自 不 同 地 方 的 个 体 意见 可 以 迅速 地 在 网 络 平台 上 汇聚 起 来 形成 公 
。 各 种 渠道 的 意见 又 可 以 迅速 地 进行 互动 ,从 而 迅速 形成 

强大 意见 声势 。 


1.6 企业 社会 网 络 与 情 与 国家 层面 舆情 的 
联系 与 区 别 


企业 级 的 网 络 与 情 与 国家 级 的 网 络 与 情 存在 着 密切 的 联系 ， 
但 同时 也 具有 多 种 区 别 。 

1. 企业 网 络 与 情 与 国家 网 络 与 情 的 联系 

(1) 在 目标 上 : 都 是 为 了 建立 正面 形象 ,降低 负面 与 情 对 自己 
的 影响 。 

(2) 在 处 理 技术 上 : 都 是 采集 网 络 信息 ,使 用 计算 机 智能 数据 
挖掘 技术 进行 处 理 。 

2. 企业 网 络 与 情 与 国家 网 络 与 情 的 区 别 

(1) 在 处 理 技术 上 : 企业 与 情 管理 是 针对 社会 网 络 上 和 企业 
相关 的 与 情 进 行 的 ,很 大 程度 上 取决 于 企业 自身 的 利益 ,而 较 少 关 
心 其 他 不 相关 行业 企业 的 信息 。 从 计算 机 文本 智能 处 理 角度 看 
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其 专业 词汇 有 一 个 范围 ,或 者 说 可 以 大 体 地 构造 出 一 个 (企业 词 
典 》。 而 国家 级 的 与 情 管理 是 对 所 有 国家 层面 上 的 ,很 难 构造 出 一 
个 词典 。 

(2) 在 网 络 营销 上 : 在 经 济 社会 中 ,企业 对 社会 的 经 济 发 展 起 
着 至 关 重 要 的 作用 。 在 企业 管理 中 ,各 项 内 容 都 是 在 围绕 着 盈利 
目标 进行 的 ,其 社会 责任 、 社 会 贡献 是 为 树立 企业 的 正面 形象 ,从 
而 间接 地 支持 了 其 熏 利 活动 。 所 以 ,利用 好 社会 网 络 , 建 立 优质 品 
牌 效应 ,通过 和 客户 在 微 博 等 网 络 上 的 一 对 一 服务 ,包括 营销 服 
务 ,进行 高 质量 的 客户 关系 管理 ,可 以 直接 促进 其 销售 。 而 国家 级 
的 与 情 管理 则 没有 产品 营销 的 任务 。 

(3) 在 重大 与 情事 件 的 发 生 频 率 .管理 难度 和 管理 成 本 上 : 对 
于 企业 与 情 管理 ,因为 其 本 身 的 范围 小 ,所 以 会 对 企业 产生 重大 影 
响 的 舆情 事件 发 生 频 率 较 低 ,相对 较 容 易 管理 。 而 国家 级 的 与 情 
管理 因为 其 本 身边 界 很 大 ,往往 重大 和 与 情事 件 发 生 的 频率 较 高 ,与 
情 管理 需要 投入 更 大 的 成 本 。 

(4) 在 语 料 的 积累 和 交互 历史 的 积累 上 : 由 于 在 社会 网 络 中 
企业 与 客户 的 交互 往往 较 多 ,如 产品 出 现 问 题 往往 有 很 多 网 民 可 
以 很 容易 且 精 确 地 找到 对 应 企业 的 官方 微 博 进 行 交互 ,所 以 有 较 
多 的 语 料 积累 ,而 政府 级 的 与 情 管理 往往 缺少 相应 语 料 , 因 为 当 和 与 
情事 件 发 生 时 ,大 家 往往 不 知道 该 去 哪里 留言 。 

(5) 在 与 情 管理 的 时 效 性 上 : 由 于 企业 的 与 情 通常 集中 于 短 
时 间 内 大 规模 的 传播 与 爆发 ,因此 留 给 企业 进行 与 情 管理 与 控制 
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的 时 间 极 短 , 并 且 这 种 影响 会 立刻 显现 在 企业 的 销售 业绩 以 及 股 
票 价格 上 (通常 在 24 小 时 内 ) ,因此 企业 对 于 与 情 管理 的 灵活 性 和 
时 效 性 要 求 较 高 。 而 国家 的 与 情 管理 通常 侧重 在 一 段 时 间 内 对 与 
情 的 正确 引导 ,并 且 所 触及 的 范围 更 大 ,影响 力 更 加 平均 ,因此 相 
对 来 说 时 效 性 的 要 求 也 就 不 如 企业 的 与 情 管理 那么 高 了 
(6) 在 应 对 措施 上 : 从 与 情 应 急 处 理 上 看 ,国家 与 情 应 急 管理 
可 以 介入 国家 行政 手段 干预 ; 而 企业 与 情 应 急 只 能 通过 网 络 公 关 
等 进行 与 情 引 导 。 企 业 和 与 情 管理 的 应 对 策略 主要 包括 积极 性 和 消 
极 性 策略 两 种 。 积 极 性 策略 包括 及 时 发 布 更 正 ,辟谣 或 纠 错 信息 、 
材料 或 证 据 , 企 业 领导 人 出 面 表态 或 说 明 , 通 过 第 三 方 公 证 或 表 
积极 配合 政府 调查 ,向 受害 者 、 消 费 者 等 群体 道歉 或 补偿 ,召回 
部 分 有 缺陷 产品 ,停产 整顿 ,采取 赔偿 、 管 护 等 补救 措施 ,全 面 改进 
产品 或 服务 ,设立 体现 企业 社会 责任 的 基金 等 。 消 极 性 策略 如 利用 
金钱 或 关系 谋求 删 帖 . 封 帖 换 帖 等 ,以 使 得 不 利于 企业 的 与 情 无 法 
发 布 或 传播 ,管控 ,威胁 ,收买 或 打击 相关 受害 者 或 当事人 , 通 迫 或 要 
求 相 关 当 事 人 不 再 发 表 不 利于 企业 的 言论 ,回避 事件 焦点 问题 或 议 
而 宣传 其 他 信息 ,否认 相关 产品 或 服务 有 问题 ,有 意 将 问题 或 巴 
盾 重点 转移 到 不 重要 的 问题 或 要 素 等 。 而 国家 级 的 与 情 管理 的 应 
对 策略 则 是 对 与 情 的 信息 收集 、 分 析 及 其 调控 政策 等 。 对 国家 利益 
受到 重大 影响 的 信息 ,直接 让 相关 网 址 删除 。 此 外 ,国家 级 与 情 监 
控 还 有 预防 措施 ,可 以 对 主要 社会 网 络 提出 要 求 ,对 涉及 国家 安全 
的 帖子 , 设 一 些 保护 措施 ,有 恶意 的 用 户 根本 上 传 不 上 去 。 
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(7) 在 靶 向 目标 方面 : 企业 与 情 管理 有 和 较 强 的 轰 向 性 ,主要 针 
对 的 是 与 企业 相关 的 人 群 ,包括 客户 、 主 要 竞争 者 、 上 下 游 伙 伴 和 
潜在 目标 客户 等 。 其 与 情 管理 的 目标 人 群 与 企业 生产 ,运作 、 营 

售后 等 有 着 强烈 的 相关 性 。 而 在 国家 级 与 情 管理 的 目标 人 和 群 
在 深度 和 广度 上 都 与 企业 级 的 不 同 。 一 方面 ,国家 级 的 与 情 管理 
针对 的 是 整个 国家 的 、 全 方位 的 一 个 与 情 管 理 ,与 企业 相 比 广度 更 
宽 , 靶 向 性 较 企 业 级 弱 ; 男 一 方面 ,国家 级 的 与 情 分析 需 要 对 于 社 
会 事件 (如 公共 安全 事件 等 ) 做 出 一 个 全 方位 的 了 解 、. 定 位 和 掌控 
的 反应 过 程 ,因而 其 又 具有 较 深 的 深度 性 特点 。 

(8) 在 与 情 的 处 理 方式 上 ,企业 与 情 管理 偏向 于 运用 和 发 挥 ， 
国家 级 与 情 管理 偏向 于 监督 和 防范 。 具 体 来 说 ,企业 与 情 一 般 是 
在 充分 研究 社会 网 络 的 基础 上 ,对 品牌 口碑 的 研究 . 莞 争 对 手动 
AS .行业 状况 分 析 ,热点 事件 判断 等 内 容 进行 信息 的 收集 提取 、 汇 
总 分 析 及 进一步 的 扩散 传播 ,进而 达到 其 商业 鱼 利 的 目的 。 而 国 
家 级 的 与 情 管 理 则 注重 利用 社会 网 络 及 时 发 现 社会 中 存在 的 不 稳 
定 因素 ,在 第 一 时 间 进 行 监管 和 处 理 , 把 危害 到 社会 公共 安全 的 可 
能 降 到 最 低 。 


1.7 企业 社会 网 络 熏 情 的 研究 意义 


社会 网 络 企业 与 情 的 研究 从 企业 和 用 户 两 方面 都 具有 很 深远 
的 意义 。 


18 
Sa? 


社会 网 络 大 数据 下 企业 与 情 建 模 和 管理 


从 企业 的 角度 来 讲 , 基 于 社会 网 络 的 企业 与 情 可 以 帮助 企业 
实现 销售 业绩 的 提升 ,进而 提升 企业 的 利润 。 

企业 社会 网 络 与 情 也 促进 商务 模式 的 变革 。 社 会 网 络 可 以 优 
化 电子 商务 销售 活动 ,通过 对 企业 社会 网 络 与 情 的 研究 ,通过 合适 
的 科学 方法 ,找到 与 情 反映 良好 的 作为 正面 反馈 加 以 推进 ,找到 与 
情 反映 不 好 的 加 以 改正 。 同 时 ,社会 网 络 能 够 推进 交易 量 , 提 升 转 
换 率 并 增加 在 线 零 售 商 的 平均 订单 额 。 例 如 ,通过 将 他 们 的 触及 
范围 从 电子 商务 网 站 延伸 到 社会 网 络 平台 ,零售 商 们 可 以 在 消费 
者 经 常 出 现 的 地 方 开 店 。 诸 如 Bazaarvoice, Power Reviews 等 社 
会 网 络 软件 供应 商 已 经 积累 了 很 多 引 人 注 目的 数据 来 佐证 将 社会 
网 络 工 具 和 内 容 加 入 或 链接 到 他 们 自己 的 电子 商务 网 站 的 销售 价 
值 。 举 例 来 说 ,通过 将 用 户 评论 加 入 到 它 的 网 站 ,英国 的 零售 商 
Argos 的 转换 率 增加 了 10%; 通过 在 社会 网 络 上 植 人 视频 广告 并 
将 它们 链接 到 自己 的 电子 商务 网 站 上 ,美国 搅拌 机 制造 商 
Blendtec 的 销售 额 增加 了 500% ,同时 Juicy Couture 的 在 线 Club 
Couture 社区 的 转换 率 提高 了 162%. 

社会 网 络 是 一 种 商务 模式 的 变革 , 越 来 越 多 的 客户 被 纳入 了 
企业 与 情 的 视野 之 内 ,从 而 提供 了 更 多 的 机 会 。 社 会 网 络 给 企业 
提供 了 进行 商务 模式 革新 的 机 会 一 一 通过 组 织 和 提取 社会 网 络 内 
容 来 创造 新 的 收入 来 源 。 例 如 ,在 B2B 部 门 ,一 个 称 为 Westlaw 
的 公司 销售 一 种 包含 组 织 用 户 内 容 的 有 偿 标 记 服 务 的 产品 
Peer Monitor, 倘 若 这 样 , 来 自 合法 公司 的 自 定义 财务 和 运营 信息 ， 
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可 以 匿名 化 并 将 其 计 入 基于 地 理 位 置 的 竞争 力 表现 报告 中 。 在 
B2C 中 ,耐克 和 苹果 同样 地 实现 了 Nike 十 的 服务 ,在线 记录 跑步 者 
的 数据 并 提供 协作 工具 和 竞争 力 表现 报告 。 

从 用 户 的 角度 来 讲 , 社 会 网 络 提 供 信 任 、 实 效 和 趣味 ,这 些 都 
需要 被 科学 高 效 地 确认 和 纠偏 ,所 以 与 情 研究 意义 颇 深 。 

在 我 国 社会 文化 特征 条 件 下 ,通过 推进 社会 化 互动 和 电子 商 
务 相关 站 点 的 用 户 贡 献 , 比 如 允许 用 户 评级 和 评论 ,对 用 户 而 言 ， 
网 站 会 变 得 更 具 吸 引力 。 这 是 因为 社会 网 络 内 容 增加 了 销售 和 市 
场 信息 的 资源 可 信 度 ,使 它们 对 用 户 而 言 更 可 信 , 更 具 说 服 力 ,也 
更 值得 相信 。 反 之 ,如 果 不 信任 了 ,那么 企业 就 必须 做 出 相应 的 
举动 。 

社会 网 络 具 有 时 效 性 ,只 有 科学 的 方法 才 可 以 高 效 正确 地 做 
出 最 正确 的 决策 。 社 会 网 络 的 工具 ,比如 允许 人 们 在 一 起 分 享 在 
线 购物 行为 的 社会 化 购物 信息 ,对 于 线 上 消费 者 是 有 帮助 的 社会 
网 络 网 站 , 它 允 许 消 费 者 通过 同步 浏览 .社会 化 书签 和 团购 等 工具 
更 精明 地 购物 。 通 过 在 消费 者 常 去 的 地 方 加 入 这 些 工具 ,品牌 商 、 
企业 和 零售 商 们 能 够 增强 消费 者 在 线 购物 体验 。 

社会 网 络 具 有 趣味 性 ,然而 这 种 趣味 应 该 怎样 正确 地 体现 却 
需要 更 科学 的 研究 提供 决策 支持 。 社 会 网 络 的 功用 除了 为 用 户 提 
供 产 品 发 现 、 选 择 和 参照 外 ,也 许 还 有 情感 价值 一 一 将 用 户 的 在 线 
之 旅 提 升 为 更 自然 的 参与 满足 感 和 更 有 价值 的 社会 化 体验 。 从 历 
史 角 度 看 ,商业 总 会 贴 着 社会 化 的 自然 属性 一 一 共同 交易 、 共 同 购 
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物 。 与 此 相反 ,早期 电子 商务 就 是 一 段 孤 独 无 趣 的 经 历 一 一 人 们 
只 能 跟 软件 交互 ,社会 网 络 再 现 了 社会 化 的 贸易 。 


1.8 本 章 小 结 


社会 网 络 是 社会 个 体 成 员 之 间 互 动 而 形成 的 相对 稳定 的 关系 
体系 。 狭 义 上 ,社交 圈 是 日 常生 活 中 朋友 间 、 同 学 间 及 同事 间 的 各 
种 关系 网 络 构成 的 一 个 人 际 圈子 ; 广义 上 ,社交 圈 可 以 延伸 到 每 
个 人 的 生活 圈 。 社 会 网 络 的 数据 量 巨大 ,形成 了 大 数据 。 大 数据 
的 规模 一 般 是 PB(1000 个 TB) 级 以 上 。 社 会 网 络 计 算 , 也 称 社会 
计算 ,是 社会 网 络 大 数据 的 一 种 智能 计算 。 社 会 网 络 与 情 大 数据 ， 
也 是 社会 计算 的 研究 范畴 。 企 业 级 的 网 络 与 情 与 国家 级 的 网 络 与 
情 ,在 处 理 技术 上 ,管理 成 本 及 与 情 处 理 方式 等 方面 , 既 存 在 着 密 
切 的 联系 ,也 具有 多 种 区 别 。 研 究 社 会 网 络 企业 与 情 对 企业 管理 
有 很 重要 的 现实 意义 。 


1. 简 述 社会 网 络 与 社会 网 络 计 算 的 概念 。 
结 


2. 总 结 归纳 社会 网 络 大 数据 的 内 涵 与 外 延 。 
3. 简 述 企业 级 的 网 络 与 情 与 国家 级 的 网 络 与 情 的 联系 与 


互联 网 与 情 分 析 的 主要 技术 


本 章 学 习 目 标 
。 掌握 与 情 信息 抽取 方法 、 摘 要 提取 技术 。 
。 掌握 关键 词 提取 技术 及 文本 倾向 性 分 析 技 术 。 


。 了 解 关联 分 析 技术 、 主 题 检测 和 和 追踪 、 与 情 热 点 发 现 和 监 
测 方 法 。 
2.1 引言 


互联 网 目前 已 经 形成 一 个 虚拟 社会 ,这 个 虚拟 社会 具有 虚拟 
性 、 隐 项 性 ,发 散 性 ,渗透 性 和 随意 性 等 特点 。 如 今 , 互 联网 已 经 成 
为 与 情 产 生 和 传播 的 主要 场所 ,并 且 在 社会 生活 中 扮演 着 越 来 越 
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重要 的 角色 。 网 络 与 情 的 爆发 将 以 "内容 威 胁 ” 的 形式 逐渐 对 社会 
公共 安全 形成 威胁 。 加 强 互联 网 的 管理 和 监控 ,展开 互联 网 信息 
收集 整理 与 挖掘 已 经 成 为 目前 各 级 政府 部 门 了 亚 须 解决 的 现实 
问题 。 

与 情 分 析 的 主要 内 容 有 很 多 ,典型 的 包括 热点 信息 的 发 现 和 
文本 倾向 性 情绪 挖掘 ,例如 ,热点 信息 异常 发 现 ,基于 情绪 分 析 的 
文本 态度 挖掘 ; 网 络 话题 自动 发 现 算法 ,用 于 解决 主题 检测 技术 
在 现实 应 用 中 面临 的 问题 ; 面向 话题 的 多 文档 关键 词 和 摘要 提取 
算法 ,用 于 自动 提取 网 络 话题 的 关键 词 和 摘要 ,帮助 用 户 快速 了 解 
网 络 话题 内 容 , 分 析 网 络 话题 的 传播 趋势 .动态 演化 规律 ,并 用 动 
态 传播 图 的 形式 展现 话题 传播 的 线索 ,以 波谱 图 的 方式 展现 一 定 
周期 内 的 话题 动态 演化 情况 。 

国内 外 越 来 越 重视 对 于 网 上 与 情 的 研究 ,其 中 涉及 的 技术 种 
类 很 多 ,网 络 话题 发 现 和 分 析 技 术 在 学 术 界 与 工业 界 已 受到 较 长 
时 间 的 关注 。 其 中 ,网 络 话题 的 自动 发 现 主要 采用 主题 检测 与 妃 
踪 技术 ; 网 络 话题 的 深入 分 析 功 能 , 则 包括 网 络 话题 的 关键 词 和 
摘要 提取 、 态 度 倾向 性 分 析 、 传 播 分 析 、 动 态 演化 分 析 、 趋 势 分 析 和 
关联 分 析 等 。 另 外 ,在 与 情 分 析 过 程 中 涉及 文本 检索 的 相关 技术 ， 
国内 外 的 文本 检索 发 展 一 直 较 快 , 尤 其 是 基于 关键 词 的 检索 。 下 
面 将 阐述 有 关 技 术 的 发 展现 状 与 趋势 。 


2.2 与 情 信息 抽 取 


来 自 互联 网 的 数据 往往 具有 噪声 并 且 随 机 性 很 大 的 特点 ,所 
以 从 互联 网 抓 取 的 数据 需要 进行 预 处 理 , 包 括 从 HTML 中 提取 需 
要 的 文本 数据 .还 原 或 者 缩写 短语 以 及 一 些 语法 解析 工作 等 等 。 
除 此 之 外 ,分 类 算法 需要 相应 的 数据 库 作 支持 ,这 些 都 需要 提前 准 
备 。 领 域 词 库 和 语法 库 是 最 为 重要 的 两 个 数据 库 , 前 者 是 进行 文 
本 解析 的 基础 ,存放 了 大 量 的 专业 领域 词汇 以 及 与 情 倾 向 性 信息 ， 
后 者 存放 着 分 类 规则 和 函数 ,通常 通过 训练 过 程 得 到 。 

不 同 的 分 类 算法 在 性 能 和 精准 性 方面 各 有 优 劣 ,我 们 倾向 于 
首先 通过 多 种 分 类 算法 对 文本 按照 与 情 分 类 ,之 后 再 利用 一 种 机 
制 将 所 得 到 的 不 同 的 分 类 结果 综合 起 来 作为 最 终 的 分 类 结果 。 

目前 ,以 下 几 种 文本 分 类 算法 在 学 术 界 比较 有 效 ,它们 分 别 建 
立 在 不 同 理 论 和 概念 基础 上 。 

(1) 基于 词 频 的 分 类 算法 。 这 种 分 类 方法 简单 直观 ,并 且 不 
需要 训练 。 领 域 词汇 数据 库 中 的 每 一 个 词汇 都 被 赋予 一 个 数值 ， 
然后 根据 这 个 数值 对 文本 中 所 有 出 现 的 领域 词汇 进行 统计 ,得 到 
一 个 最 终 的 值 ,这 个 值 代表 了 该 文本 的 与 情 值 。 根 据 这 个 数值 将 
该 文本 归 为 正 向 、 负 向 或 者 中 性 。 

(2) 基于 向 量 距离 的 分 类 算法 。 将 每 一 个 文本 用 一 个 文本 向 
量 表示 , 维 数 为 了 ,其 中 D 为 领域 词汇 数据 库 中 词汇 的 个 数 。 对 于 
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文本 向 量 中 的 每 一 个 元 素 , 其 值 对 应 着 该 词汇 在 该 文本 中 出 现 的 
次 数 ,因为 每 一 个 文本 中 出 现 的 词汇 仅仅 占 词汇 数据 库 中 的 一 小 
部 分 ,大 多 数 文本 向 量 是 稀 玻 的 。 这 种 分 类 算法 需要 训练 。 首 先 
按照 以 上 的 规则 为 每 一 个 训练 样本 集合 中 的 文本 计算 出 一 个 向 
量 ,然后 得 到 一 个 向 量 集合 G, 其 中 G= (gs geste ge} ogi Gl, 
2,…,t) 代 表 每 一 个 训练 样本 的 文本 向 量 ,其 中 1 为 训练 样本 的 个 
数 。 计 算 完 训练 样本 的 文本 向 量 之 后 ,采用 同样 的 手段 计算 测试 
样本 的 文本 向 量 。 

(3) 基于 强度 的 分 类 算法 。 文 本 与 情 对 应 着 该 文本 所 体现 的 
情感 方向 , 即 是 正 向 ` 负 向 或 者 是 中 性 ,而 文本 强度 则 体现 了 文本 
的 影响 力 。 强 度 高 的 文本 具有 更 大 的 事件 影响 力 , 相 反 , 强 度 低 的 
文本 对 于 事件 而 言 影 响 力 比较 弱 。 如 果 赋 予 每 一 个 文本 一 个 值 ， 
那么 与 情 代 表 该 值 的 符号 ,而 强度 对 应 其 绝对 值 的 大 小 。 

这 里 采用 的 分 类 算法 就 是 通过 统计 不 同 词汇 的 强度 来 得 到 最 
终 文本 的 强度 。 通 过 


5 TÈ u = a) 
F(w) i =t Vw 
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来 计算 每 一 个 词汇 的 强度 ,其 中 i 用 来 索引 和 与 情 类 别 ,这 里 i 的 取 
值 可 以 是 1 一 3; 7 用 来 索引 文本 ;， w 代表 词汇 数据 库 中 的 一 个 关 
键 词 ; C 代表 与 情 类 别 的 个 数 ,这 里 C 的 取 值 为 3。 以 上 的 式 子 要 
在 训练 样本 上 进行 计算 ,训练 样本 的 与 情 类 别 已 经 为 其 标记 。 对 


于 一 个 特定 的 词汇 w 而 言 ,wu 代表 它 在 训练 样本 类 别 i 的 文本 中 
出 现 的 平均 次 数 ,mi 代表 它 在 类 别 为 i 的 文本 j 中 出 现 的 次 数 ,n; 
代表 该 词 在 类 别 ; 中 总 共 出 现 的 次 数 。 因 此 可 以 得 到 ,对 于 每 一 
个 词汇 w 而 言 ,计算 的 是 其 在 类 别 间 的 出 现 次 数 变 化 和 类 别 内 的 
出 现 次数 变 化 的 比值 ,这 在 一 定 程度 上 反映 了 该 词 在 与 情 类 别 上 
所 体现 出 的 强度 。 比 值 越 大 ,说 明 该 词 的 强度 越 高 。 于 是 ,基于 这 
个 机 制 借助 训练 样本 集合 对 每 一 个 词汇 都 计算 出 一 个 强度 值 , 然 
后 将 得 到 的 信息 用 于 计算 测试 样本 的 文本 强度 上 。 正 像 前 面 所 说 
的 ,与 情 类 别 反映 了 强度 的 符号 ,将 正面 的 词汇 计算 成 正 值 , 负 面 
的 词汇 计算 成 负 值 , 中 性 词汇 值 为 0, 最 后 根据 每 一 个 文本 计算 出 
来 的 值 将 其 按照 与 情 进 行 分 类 。 


2.3 关键 词 提取 


对 于 关键 词 提 取 ,tf-idf (term frequency-inverse document 
frequency) 是 一 种 经 常 被 提 及 的 概念 。tf(term frequency) 代 表 “ 关 
键 词 的 频率 ?或 者 “ 单 文本 词汇 频率 ”, 即 某 一 文档 中 某 一 词 条 出 现 
的 频数 ,tf 越 高 意味 着 更 强 的 区 分 文档 内 容 属 性 的 能 力 ,其 权 值 越 
高 。idf(inverse document frequency) 代 表 “ 逆 文本 频率 指数 ”, 简 
称 倒序 索引 排序 , 即 文档 集中 包含 某 一 词 条 的 文档 数 ,idf 越 高 说 
明 它 区 分 文档 类 别 属性 的 能 力 越 低 ,其 权 值 越 小 。 

所 谓 关 键 词 , 即 在 单一 文档 中 出 现 较 多 同时 在 其 他 文档 中 出 
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现 较 少 的 词 , 也 就 是 tfXidf 值 比较 大 的 词 。 所 谓 关键 词 提取 ,其实 
就 是 选取 tfXidf 值 比 较 大 的 词 作为 关键 词 的 过 程 。 这 里 的 “比较 
大 ” 既 可 以 是 相对 的 概念 , 即 选取 权重 排名 前 一 定 比 例 的 词 作为 关 
键 词 (如 前 10%), 也 可 以 是 一 个 绝对 的 概念 , 即 规定 关键 词 的 数 
量 , 如 权重 排名 前 100 个 词 作为 关键 词 。 为 文档 提取 关键 词 ,大 大 
减少 了 信息 的 宛 余 ,为 后 续 的 智能 决策 提供 了 便利 ,具有 很 重要 的 
实际 意义 。 


2.4 摘要 提取 


关于 摘要 提取 的 研究 ,数字 图 书馆 领域 的 著名 国际 会 议 一 一 
ACM/IEEE 联合 数字 图 书馆 大 会 (JCDL)、 国 际 计 算 语言 学 大 会 
(ACL) .国际 信息 检索 大 会 (SIGIR) 上 均 发 表 有 关 文 档 自动 摘要 的 
最 新 成 果 。 国 际 上 文档 自动 摘要 方面 比较 著名 的 几 个 系统 包括 
ISI 的 NeATS 系统 ,哥伦比亚 大 学 的 NewsBlaster AS. FMA K 
学 的 NewsInEssence 系统 等 。 国 内 的 哈工大 信息 检索 实验 室 , 清 
华 大 学 智能 技术 与 系统 国家 重点 实验 室 等 都 对 此 问题 进行 了 一 些 
研究 ,但 没有 看 到 成 熟 的 系统 。 国 外 的 文档 理解 大 会 (DUC) 专 注 
于 文档 摘要 的 评测 ,包括 单 文 档 摘要 、 多 文档 摘要 ,主题 相关 的 多 
文档 摘要 等 任务 。 国 内 的 基础 资源 与 评测 也 进行 了 单 文档 摘要 的 
评测 任务 ,但 测试 集 规模 比较 小 。 

文档 摘要 技术 的 研究 在 图 书馆 领域 和 自然 语言 处 理 领域 一 直 


都 很 活跃 ,最 早 的 应 用 需求 来 自 图 书馆 。 图 书馆 需要 为 大 量 文献 
书籍 生成 摘要 ,而 人 工 摘要 的 方式 效率 很 低 , 因 此 号 须 自动 摘要 的 
方法 取代 人 工 ,高 效 地 完成 文献 摘要 任务 。 随 着 信息 检索 技术 的 
不 断 发 展 进步 ,文档 自动 摘要 在 信息 检索 系统 中 越 来 越 重要 ,逐渐 
成 为 信息 检索 领域 的 研究 热点 之 一 。 

目前 ,业界 出 现 了 一 些 文本 挖掘 产品 ,能够 提供 单 文档 摘要 功 
能 ,例如 拓 思 和 尔 ,海量 科技 公司 等 的 产品 。 百 度 搜 索 和 纳 讯 新 闻 搜 
索 都 能 为 检索 到 的 文档 提供 简单 的 单 文档 摘要 。 文 档 摘 要 为 主题 
检测 与 追踪 提供 服务 ,通过 摘要 信息 方便 对 主题 内 容 进 行 了 解 , 可 

已 有 的 摘要 技术 大 都 基于 与 主题 无 关 的 摘要 方法 ,针对 候选 
的 文本 进行 后 置 处 理 来 判断 主题 。 这 种 判定 的 方法 没有 充分 利用 
到 文本 内 部 的 关联 关系 ,因此 摘要 的 准确 性 不 高 。 国 内 针对 中 文 
文本 的 摘要 方法 大 致 分 为 两 类 ,分 别 是 基于 相 邻 段落 语义 相似 性 
的 方法 和 基于 篇 章 结构 图 的 方法 。 前 一 种 方法 认为 一 篇 由 多 个 段 
落 组 成 的 文本 ,其 相 邻 段落 在 内 容 上 是 相近 的 ,形成 多 个 语义 内 聚 
的 节 。 通 过 分 析 相 邻 段落 间 的 语义 关系 即 可 自动 地 实现 文本 主题 
的 划分 ,两 个 相 邻 段落 间 的 语义 关系 通过 它们 所 共有 的 词 条 数 来 
衡量 ,在 处 理 篇 童 结构 比较 规范 的 文本 时 效果 很 好 。 然 而 , 当 文 本 
写作 风格 自由 , 且 主 题 分 布 灵 活 多 样 时 ,采用 此 方法 的 效果 会 大 打 
折扣 。 主 要 原因 在 于 它 仅 仅 计算 了 相 邻 段落 间 的 语义 相似 性 ,而 
忽视 了 对 那些 可 能 会 跨 段落 分 布 的 主题 的 处 理 。 此 外 ,采用 该 方 
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法 必须 人 工 来 主观 设 定 段 落 间 的 语义 相似 度 阔 值 , 而 由 于 阔 值 的 
设 定 往往 和 文本 的 题材 ,体裁 等 因素 相关 ,因此 通过 人 工 来 预先 设 
定 阔 值 往往 并 不 合适 。 后 一 种 方法 不 同 之 处 在 于 采用 了 基于 篇 章 
结构 图 的 策略 来 计算 文本 中 各 段落 之 间 的 语义 距离 ,以 段落 为 节 
点 ,段落 间 的 语义 距离 为 边 构造 文本 的 篇 章 结构 图 ,进而 根据 人 工 
设 定 的 某 语义 距离 阔 值 来 分 析 文 本 中 可 能 包含 的 潜在 主题 。 

上 述 方法 的 共性 在 于 需要 采用 以 句子 作为 基本 单元 的 抽取 策 
略 ,摘要 长 度 无 法 确定 ,需要 事先 直接 或 间接 的 给 定 , 实 际 情况 是 ， 
不 同文 本 的 主题 分 布 灵活 多 样 具有 截然 不 同 的 信息 量 , 为 了 保证 
摘要 产生 的 准确 全 面 而 且 不 失 简洁 ,需要 能 够 通过 文本 深度 挖掘 
的 办 法 寻找 潜在 的 主题 相关 的 内 容 , 对 文本 句子 的 关系 进行 处 理 ， 
进而 产生 更 准确 的 摘要 。 在 关键 词 自动 提取 部 分 ,需要 考虑 关键 
词 词 频 的 历史 波动 ,对 于 热点 事件 的 检测 十 分 有 利 ,能 够 更 加 客观 
地 反映 当前 关键 词汇 的 异常 状态 。 


2.5 文本 倾向 性 分 析 


文本 倾向 性 分 析 也 称 情绪 判定 。 对 于 互联 网 文本 而 言 ,决定 
其 性 质 的 因素 有 很 多 ,包括 外 在 因素 和 内 在 因素 。 前 者 比如 文本 
的 数量 , 即 特定 时 间 内 互联 网 上 出 现 的 关于 某 项 话题 的 文本 的 个 
数 。 后 者 主要 描述 单个 文本 的 性 质 ,对 于 单个 文本 而 言 , 它 的 性 质 
可 以 取决 于 其 内 容 和 强度 ,内容 为 该 文本 的 主题 时间、 文体 等 , 强 
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度 主要 指 该 文本 的 影响 因子 , 即 该 文本 的 出 现 可 以 多 大 程度 上 对 
相关 领域 的 人 和 事物 产生 影响 。 

近 几 年 以 来 ,文本 与 情 分 析 的 研究 逐渐 成 为 国内 外 研究 者 所 
关注 的 一 个 热点 。 通 俗 地 说 ,文本 和 与 情 描述 的 是 文本 所 传递 的 情 
感 。 对 文本 与 情 进行 分 析 , 实 际 上 就 是 试图 根据 文本 的 内 容 提 炼 
出 作者 的 情感 方向 。 但 是 我 们 希望 这 项 工作 可 以 由 计算 机 实现 。 
因此 文本 情感 分 析 是 指 通过 计算 机 技术 自动 分 析 文 本 信息 所 包含 
的 情感 因素 ,例如 喜欢 或 讨厌 .正面 或 负面 .快乐 或 悲伤 ,愤怒 和 慌 
惧 等 。 由 此 可 见 ,文本 与 情 一 定 程度 上 代表 了 作者 的 感情 取向 , 决 
定 了 文本 内 容 的 襄 贬 含义 。 为 了 实现 对 文本 信息 的 准确 提取 ,我 
们 不 仅 需要 掌握 该 文本 的 影响 强度 ,同时 还 需要 对 文本 的 感情 取 
向 有 一 个 正确 的 把 握 ; 如 果 我 们 需要 对 每 一 个 文本 赋予 一 个 值 ， 
那么 影响 强度 可 以 看 成 是 其 绝对 值 的 大 小 ,而 与 情 可 以 看 成 是 其 
正 负 号 。 

人 可 以 很 容易 地 对 一 个 文本 的 感情 取向 进行 判断 ,但 是 我 们 
现在 希望 可 以 通过 计算 机 手段 自动 地 提取 文档 中 的 情感 因素 ,从 

现 批量 且 实 时 的 处 理 。 为 了 实现 这 个 目标 ,需要 借助 的 技术 
手段 有 自然 语言 处 理 、 机 器 学 习 、 文 本 挖掘 、 模 式 识别 等 等 。 借 助 
它们 ,可 以 利用 计算 机 自动 地 识别 出 这 些 互 联网 文本 的 感情 取向 ， 
即 与 情 ,然后 实现 对 这 些 文本 基于 与 情 的 分 类 。 

对 文本 中 所 包含 的 情感 相关 内 容 进 行 分 析 和 自动 计算 ,在 相 
关 研 究 中 通常 称 为 文本 情感 分 析 技术 ,或 者 叫做 文本 态度 倾向 性 
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研究 。 文 本 情感 分 析 有 着 众多 的 潜在 应 用 领域 ,并 为 自然 语言 处 
理 提供 了 新 的 研究 思路 和 研究 角度 。 

文本 与 情 分 析 可 以 进一步 划分 为 以 下 几 步 工作 : GI 
WEY IT 文本 整体 感情 色彩 分 析 以 及 文本 观点 提取 和 和 总结。 词汇 
语义 褒贬 分 析 是 文本 情感 分 析 研 究 的 基础 ,是 基于 词汇 粒度 上 的 
与 情 分 析 ,包括 分 析 其 语义 属性 和 其 强度 因子 ,其 中 主要 借助 统计 
方法 和 语义 方法 。 

文本 整体 感情 色彩 分 析 是 在 第 一 步 的 基础 上 进一步 通过 语义 
方法 或 者 机 器 学 习 的 方法 确定 整个 文本 的 与 情 。 最 后 ,文本 观点 
提取 和 总 结 主要 指 根据 文本 的 内 容 提取 出 该 文本 所 描述 的 实体 对 
象 和 对 其 的 观点 ,并 且 将 结果 通过 图 示 直 观 地 向 用 户 展示 出 来 。 
文本 态度 倾向 性 分 析 算 法 用 于 帮助 用 户 了 解 网 络 文本 中 所 包含 的 
情感 色彩 。 举 例如 下 : 

我 们 提出 新 的 通过 人 工 标注 和 机 器 学 习 相 结合 的 方法 ,补充 
完善 现 有 的 情感 倾向 语言 资源 ,包括 词汇 ,短语 .句子 .文档 等 粒度 
的 标注 语 料 的 规模 ,对 所 包含 情感 倾向 词语 的 情感 强度 标注 深入 
优化 ,并 进一步 探讨 修辞 等 更 深层 次 的 情感 倾向 获取 问题 。 可 以 
考虑 引入 半 监 督 的 方法 来 提高 情感 语言 资源 的 获取 效率 。 

研究 结合 上 下 文 环境 和 语义 消 歧 的 情感 分 析 , 从 而 更 准确 地 
分 析 词 汇 在 动态 的 上 下 文 环境 中 的 人 讲 贬 含义 ,比如 词 “ 高 ”在 “性 价 
比 高 " “价格 太 高 ”等 环境 下 有 不 同 的 窒 贬 含义 。 

将 机 器 学 习 的 文本 分 类 技术 与 现 有 的 人 完 贬 语言 资源 以 及 基于 完 
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贬 语 言 资 源 的 评分 方法 更 好 地 结合 ,从 而 进行 更 为 精确 的 情感 分 析 。 

结合 机 器 学 习 和 规则 方法 探讨 更 好 的 观点 抽取 方法 ,准确 抽 
取 语 料 中 的 评价 实体 ,以 提高 针对 实体 评价 特征 的 褒贬 评分 效果 ， 
比如 针对 人 和 名、 公司 ,产品 等 实体 的 评价 。 


2.6 关联 分 析 技 术 


挖掘 关联 和 相关 是 数据 挖掘 领域 的 热点 问题 ,但 是 目前 研究 
成 果 的 深度 应 用 还 不 是 很 成 熟 ,通常 的 挖掘 分 析 只 涉及 相关 性 分 
析 , 即 只 能 给 出 变量 之 间 的 相关 关系 ,而 更 深层 的 因果 关系 ,一 般 
的 数据 挖掘 方法 无 能 为 力 。 显 然 ,在 互联 网 与 情 信息 传播 相关 活 
动 中 ,发 现 和 挖掘 因果 关系 都 是 非常 重要 的 , 它 可 以 帮助 我 们 对 研 
究 对 象 更 本 质 的 理解 以 及 获得 一 些 可 以 指导 行动 的 知识 。 如 能 充 
分 利用 数学 理论 中 因果 关系 的 关联 分 析 的 方法 ,通过 综合 分 析 某 
些 公共 突 发 事件 (比如 群体 性 事件 ) 发 生前 后 网 络 与 情 的 变化 规 
律 ,确定 影响 事件 的 关键 因果 因素 ,一 方面 能 对 该 类 突 发 事件 进行 
预警 ,消除 或 者 降低 此 类 事件 的 社会 影响 ; 另 一 方面 也 为 应 对 突 
发 事件 制定 应 对 措施 提供 依据 和 支持 。 

1. 将 关联 分 析 用 于 和 与 情 

一 般 地 ,将 关联 分 析 用 于 和 与 情 可 以 按照 以 下 步骤 进行 。 

(1) 确定 关联 分 析 的 对 象 。 

目前 针对 网 络 熏 情 的 分 析 有 很 多 种 类 ,分 析 对 象 的 选择 需要 
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有 根据 地 进行 ,寻求 具有 内 在 实质 关联 的 对 象 , 如 果 选 择 仅仅 是 表 
面 和 虚假 的 联系 , 则 研究 的 意义 不 大 。 需 要 在 研究 之 前 将 所 选 题 
涉及 的 研究 对 象 进行 必要 的 定性 和 定量 分 析 。 

(2) 各 类 熏 情 发 展 和 网 络 信息 的 关系 模型 。 

需要 给 出 实际 验证 有 效 的 模型 来 检测 网 络 信息 与 社会 与 情 的 
关联 关系 ,具体 可 深入 到 垂直 领域 与 情 内 部 进行 ,需要 挖掘 推动 与 
情 发 展 的 内 在 规定 性 。 

(3) 对 于 与 情 的 趋势 预测 。 

网 络 信息 的 相关 分 析 用 于 指导 实践 和 预测 与 情 未 来 发 展 趋 
势 ,建立 网 络 信息 的 回归 方程 是 相关 分 析 的 重要 环节 ,利用 回归 方 
程 在 明确 各 变量 的 情况 下 ,准确 对 与 情 发 展 状况 进行 预测 ,如 能 从 
经 验 数 据 中 分 析出 影响 与 情 信 息 增长 和 分 布 的 因素 ,并 建立 精确 
的 模型 ,就 能 够 对 与 情 信息 进行 很 好 的 监控 。 

网 络 话题 传播 动态 分 析 的 目标 是 利用 关联 分 析 技 术 分 析 博 
客 .论坛 .新 闻 等 ,实现 对 某 个 主题 的 传播 趋势 进行 分 析 , 用 动态 传 
播 图 的 形式 展现 与 情 传播 的 线索 。 设 置 与 情 传播 动态 模块 对 同一 
主题 的 论坛 帖 文 .博客 文章 、 网 站 新 闻 , 进 行 基于 时 间 的 罚 分 策略 
计算 关联 程度 分 析 , 以 传播 网 的 形式 给 出 同一 主题 在 不 同 媒介 之 
间 的 传播 关系 ,结合 关注 程度 分 析 得 出 主题 的 转移 趋势 ,并 以 平面 
图 动画 以 及 抽象 的 有 向 图 形式 将 示意 图 展现 给 用 户 。 网 络 话题 
的 动态 演化 分 析 是 通过 三 维 图 形 下 的 信息 挖掘 、 和 加 检索 模型 , 通 
过 概念 挖掘 的 手段 ,以 波谱 图 的 方式 ,展现 一 定时 间 周 期 内 的 与 情 
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变化 情况 以 及 与 情 重点 和 相关 关系 。 系 统 通过 粗细 、 亮 暗 、 分 又 的 
方式 来 表达 同一 时 期 的 报道 信息 数量 .关注 度 .趋势 等 ,为 与 情 变 
化 判断 提供 一 定 的 参考 。 

2. 网 络 与 情 与 社会 事件 之 间 的 关联 分 析 研 究 

网 络 和 与 情 和 社会 事件 之 间 的 关联 分 析 研 究 包含 以 下 内 容 : 

(1) 某 些 群 体 突 发 事件 的 参与 者 ,或 者 该 问题 的 关注 者 在 事 
件 暴 发 前 会 通过 网 络 媒介 交流 、 组 织 、 扩 散 相 关 信 息 。 研 究 与 特定 


事件 相关 联 的 网 络 与 情 因素 。 
(2) 确定 这 些 因素 的 强度 和 分 布 ,建立 利用 这 些 因素 对 突 发 
事件 进行 预警 的 模型 。 


(3) 利用 因果 分 析 模 型 ,在 众多 网 络 与 情 因 素 中 ,确定 影响 突 
发 事件 发 生 ,发展 的 关键 因果 因素 。 从 而 为 应 对 突 发 事件 的 措施 
制订 提供 依据 和 支持 。 

将 分 析 整 理 后 的 信息 直接 为 用 户 或 为 用 户 辅助 编辑 提供 信息 
服务 ,如 自动 生成 与 情 信息 简 报 .追踪 已 发 现 的 与 论 焦点 并 形成 趋 
势 分 析 , 用 于 辅助 各 级 领导 的 决策 支持 。 


2.7 主题 检测 和 追踪 


主题 检测 与 追踪 (topic detection and tracking, TDT) # £4 tif 
分 析 的 重要 技术 手段 ,同时 也 是 近 十 年 自然 语言 处 理 和 信息 检索 
领域 的 热点 研究 课题 。 其 主要 任务 是 从 连续 的 记录 (如 新 闻 、 论 坛 
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发 帖 `, 微 博 等 ) 中 识别 出 系统 未 知 的 主题 以 及 与 该 主题 相关 的 记 
录 , 或 发 现 与 某 一 个 已 知 主题 有 关 的 新 记录 。 这 里 的 主题 可 以 根 
据 与 情 监控 的 需要 来 设 定 。 

该 研究 始 于 1996 年 , 自 1998 年 以 来 ,国际 上 每 年 举行 一 届 
TDT 评测 活动 。 该 评测 由 美国 国防 部 高 级 研究 规划 署 (DARPA) 
和 国家 标准 技术 局 (NIST) 发 起 ,参与 者 包括 DARPA 等 政府 机 
构 ,CMU、Cambridge 等 一 流 大 学 以 及 IBM、GE 等 公司 。 该 评测 
极 大 地 促进 了 TDT 技术 的 发 展 ,取得 了 大 量 的 重要 研究 成 果 。 

目前 TDT 关注 的 研究 重点 是 事件 的 检测 与 追踪 ,其 中 ,主题 
是 比 事件 更 加 宽泛 的 概念 ,一 个 主题 可 以 包含 多 个 相关 事件 。 从 
本 质 上 看 ,事件 检测 是 对 新 闻 报 道 流 依据 不 同 的 事件 做 聚 类 ,需要 
将 讨论 一 个 事件 的 报道 归 为 一 类 。 与 通常 的 文本 聚 类 相 比 ,事件 
检测 的 特殊 性 主要 表现 在 两 个 方面 。 首 先 ,事件 检测 的 处 理 对 象 
是 按时 间 顺 序 依 次 出 现 的 新 闻 报 道 流 ,随时 间 动 态 变化 ,而 不 是 静 
态 的 封闭 文本 集合 ; 其 次 ,事件 检测 是 依据 报道 讨论 的 事件 而 不 
是 主题 类 别 进行 聚 类 ,所 依据 的 信息 粒度 相对 要 小 ,所 以 由 事件 检 
测 得 到 的 类 应 当 更 多 一 

在 事件 检测 过 程 中 ,主要 步骤 如 下 : 一 是 从 数据 源 读 和 人 一 篇 
报道 ,包括 内 容 \ 时 间 以 及 其 他 相关 信息 ; 数据 源 可 能 存在 多 个 ， 
报道 之 间 可 能 没有 明显 的 界限 ,需要 进行 报道 间 的 切 分 等 预 处 理 。 
二 是 采用 质心 比较 或 者 最 近邻 比较 策略 ,计算 报道 与 事件 或 者 报 

道 与 报道 间 的 相似 度 ,确定 与 当前 报道 最 相近 的 事件 。 三 是 若 报 
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道 被 归 人 某 个 事件 , 则 调整 该 事件 ; 若 报道 无 法 归 和 人 现 有 事件 , 则 
将 其 列 为 新 检测 到 的 事件 。 四 是 输出 检测 到 的 事件 ,将 事件 中 权 
重 最 高 的 几 个 特征 词 或 者 具有 代表 性 的 某 个 报道 标题 作为 事件 
描述 。 

主题 检测 追踪 根据 不 同 用 户 设 定 不 同 主题 策略 ,将 互联 网 作 
为 一 个 大 的 语 料 进 行 处 理 , 追 踪 系 统 能 够 通过 给 出 某 个 话题 的 一 
则 或 多 则 报道 ,将 后 输入 进来 的 互联 网 报道 与 该 话题 联系 起 来 , 实 
际 实现 过 程 分 为 两 步 进行 : 给 定 一 组 样本 信息 ,通过 训练 得 到 指 
定 的 话题 模型 ; 在 后 续 信 息 中 发 现 涉及 目标 话题 的 信息 

由 于 主题 识别 与 追踪 的 处 理 对 象 是 随时 间 动 态 变 化 的 语言 信 

息 流 , 不 是 静态 的 ,封闭 的 文本 集合 ,因此 还 考虑 了 主题 追踪 的 时 

整个 过 程 由 建立 主题 模型 .基于 模型 的 追踪 和 产生 追踪 结果 
三 部 分 组 成 。 

1. 建立 主题 模型 

判断 与 情 信息 是 否 与 主题 相关 ,需要 解决 主题 的 表示 模型 问 
题 ,这 里 采用 向 量 空 间 模型 来 表示 ,基本 思想 是 : 给 定 一 个 自然 语 
言 文档 D==D(1,wl; t2,w2; ; tnewn) ,其 中 zi 是 从 文档 DD 中 选 
出 的 特征 项 ,wi 是 该 项 的 权重 ,1 < i < n。 把 tn 看 成 是 一 个 n HE 
的 坐标 系 , 而 wl ,tw2,… swn 为 相应 的 坐标 值 ,因而 DCwl ,rw2，: 
wn) 被 看 成 是 n 维 空间 中 的 一 个 向 量 ,文档 表示 为 文档 空间 的 向 
量 , 以 词 作为 文本 特征 项 。 特 征 词 加 权 采 用 HXidf 加 权 策 略 。 对 
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于 每 个 主题 来 说 ,需要 通过 训练 信息 模型 来 建立 已 知 主题 模型 。 
这 时 需要 计算 信息 和 主题 的 相似 度 , 采 用 对 称 Okapi 公式 算法 计 
算 ,所 得 结果 为 文档 和 主题 之 间 的 分 数 。 

2. 模型 追踪 

可 通过 针对 关键 词 的 相关 计算 过 程 来 实现 追踪 ,通过 人 工 提 
供 反 馈 找 出 讨论 主题 的 消息 ,得 到 每 个 关键 字 的 权 值 4; ,然后 通过 
选择 打分 算法 来 计算 分 数 。 在 主题 集合 (T) 中 ,每 个 关键 字 i 的 
相对 概率 计算 如 下 : 


tf(i, 了) 

DY AGa T) 
HET 

相关 主题 集合 工 .无 关 主 题 集 合 T 和 所 有 主题 集合 T, Wit 
算 都 是 采用 上 述 进行 的 ,其 中 tf(i,,X) 表 示 关 键 字 i, 在 集合 XX 中 
的 条 件 概率 。 

接 下 来 通过 手工 设置 关键 字 in 的 权重 4%; ,用 以 调整 关键 字 的 
条 件 概率 ,并 将 其 标准 化 

pG, | T) =aipG, | T) +a ADP, | Ta) 


pG, | T) = 


tf. T) 
Cin | Dan = SO 
ai o PG De 
i, ET 
同样 进行 在 To 中 的 计算 。 可 通过 下 面 的 计算 得 到 相似 比值 # rol 
= PCs Thom 
da 5 


最 后 在 主题 工 中 消息 S 的 得 分 为 
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tfsCi,.S) = tf, S) T > HG TOk, 


IET, 
score(S,T) = ok(dsel) + f(n 5 # rol * Tisti,S)] 
i,€d 


SUP i, 是 出 现在 消息 S 中 的 一 个 关键 字 ; ns 是 消息 S 中 不 同 关键 
字 的 数量 。 通 过 增 量 学 习 的 机 制 ,增强 当前 主题 模型 的 作用 ,通过 
合并 新 的 训练 信息 到 主题 模型 中 得 到 实现 。 

3. 追踪 结果 

在 上 述 算法 的 基础 上 ,通过 关键 字 调 整 和 增 量 学 习 的 机 制 , 对 
跟踪 结果 进行 重新 追踪 ,将 结果 与 阔 值 进行 比较 ,反复 多 次 ,得 到 


更 可 靠 的 追踪 结果 。 
目前 的 国内 外 针对 事件 检测 的 研究 存在 着 一 定 的 改进 空间 ， 
主要 体现 在 : 


(1) 热点 事件 排序 问题 ,人 们 往往 没有 时 间 去 查看 大 量 的 新 
闻 事 件 , 所 以 最 热 的 新 闻 事件 排序 应 该 越 靠 前 ,这 就 涉及 排序 算法 
的 设计 。 

(2) 事件 相似 性 问题 ,由 于 对 同一 个 新 闻 事件 不 同方 面 进 行 
报道 的 新 闻 可 能 相似 度 较 小 ,从 而 使 得 同一 个 新 闻 事 件 在 事件 发 
生 初 期 被 分 为 多 个 小 事件 ,进而 随 着 事态 的 不 断 发 展 , 这 些 事件 的 
相似 度 可 能 会 越 来 越 大 ,这 样 就 可 能 给 用 户 的 浏览 带 来 迷惑 和 不 
便 。 如 能 给 定 适应 该 问题 的 科学 的 相似 性 度量 方法 , 便 可 以 对 相 
同 的 内 容 进 行 剔 除 。 

(3) 新 闻 报 道 淘汰 问题 ,在 实际 应 用 环境 中 ,事件 检测 是 一 
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长 期 持续 的 过 程 。 随 着 事件 的 动态 演化 ,事件 内 的 一 些 新 闻 和 该 
事件 的 相关 性 在 逐渐 降低 。 另 外 ,周期 较 长 的 事件 随 着 时 间 的 积 
累 也 可 能 出 现 膨胀 现象 ,整个 事件 内 容 过 于 宽泛 。 

(4) 事件 描述 问题 ,目前 新 闻 事件 的 描述 有 两 种 方法 。 选 取 

该 事件 中 最 重要 的 若干 个 特征 词 ,或 者 该 事件 中 某 个 新 闻 标 题 。 
由 于 中 文 自然 语言 处 理 技术 还 不 够 成 熟 ,提取 的 特征 词 往往 很 难 
完整 准确 地 描述 事件 。 而 如 果 用 事件 中 某 个 报道 标题 作为 描述 
对 于 一 些 综合 性 的 事件 , 则 该 报道 可 能 仅 是 事件 的 一 个 方面 ,对 事 
件 的 描述 不 够 全 面 。 

未 来 的 研究 应 该 着 重 于 利用 新 闻 事 件 本 身 的 特点 ,解决 热点 
事件 排序 .事件 合并 与 调整 、 新 闻 报 道 淘汰 ,以 及 新 闻 事件 描述 等 
问题 ,实现 对 持续 新 闻 流 进行 动态 .高效 的 事件 检测 和 热点 追踪 。 

目前 话题 检测 方法 在 新 闻 等 较 正规 语 料 时 效果 较 好 ,应 用 于 
论坛 (很 多 短文 本 )、 博 客 (很 多 特别 长 的 文本 ) 等 不 规则 数据 效果 
尚 需 进一步 改进 ,需要 对 非 正 规 文 本 ,例如 短文 本 和 长 文本 (包含 
很 多 内 容 ) 进 行 特殊 人 处理, 以 保证 较 好 的 检测 效果 。 


2.8 与 情 热 点 发 现 和 监测 
互联 网 与 情 信息 量 巨大 ,如 能 构建 针对 与 情 的 排名 和 预警 系 


统 , 对 当前 与 情 热点 进行 重点 关注 ,将 会 大 大 提升 监控 效率 与 监管 
效率 。 针 对 与 情 热 点 发 现 技术 目前 存在 着 的 一 些 缺 点 和 不 足 , 以 
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下 几 点 是 可 以 重点 关注 的 : 

1. 关键 词 的 选取 ,对 不 同 频率 词汇 变化 的 权重 度量 

基于 统计 的 方法 进行 关键 词 的 提取 ,同时 需要 结合 词典 技术 ， 
可 充分 发 挥 基于 统计 的 算法 不 受 句 型 限制 的 优点 ,又 可 利用 关键 
词 词典 控制 统计 算法 中 的 噪音 项 。 最 后 提取 关键 词 的 结果 作用 于 
词典 以 增强 词典 的 权威 和 可 信和 度 。 

2. 词 频 显著 性 波动 的 预测 ,使 用 历史 均值 和 历史 标准 差 进行 

通过 累积 与 情 信息 数据 ,结合 统计 学 方法 ,考虑 统计 关键 词 单 
位 时 间 内 词 频 的 历史 均值 与 历史 标准 差 , 针 对 关键 词 词 频 的 波动 
来 发 气 事 件 运行 的 趋势 ,可 以 通过 一 些 数 据 挖掘 的 方法 ,如 支持 向 
量 机 来 进行 预测 。 

3. 对 高 频 词 和 低频 词类 别 的 区 分 及 事件 异常 度 的 检测 

定义 关键 词 的 权重 ,用 以 关键 词 的 分 类 ,主要 通过 利用 文档 中 
提取 的 关键 词 和 相应 统计 信息 ,构建 分 类 模型 来 区 分 文档 中 关键 
词 的 类 别 ,进而 利用 历史 均值 和 权重 计算 关键 词 的 热度 ,通过 设置 
相应 的 阔 值 检测 关键 词 对 应 出 现 的 事件 异常 。 

4. 热点 事件 预警 及 显示 处 理 

设计 并 实现 热点 事件 关键 词 及 其 热度 的 波动 图 形 区 分 显示 ， 
直观 地 表达 事件 异常 ,并 提供 用 户 预 警 功能 。 

对 于 信息 热点 的 发 现 和 检测 部 分 的 研究 ,可 参照 已 有 的 针对 
金融 市 场 信息 异常 波动 的 研究 成 果 来 进行 ,比较 方便 构建 相应 的 
模型 和 算法 实现 。 
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5. 异常 度 国 值 的 判断 

建立 在 对 事件 相关 词汇 的 异常 度 进行 计算 的 前 提 基 础 上 , 阔 
值 的 判断 除了 需要 引入 历史 标准 差 之 外 ,还 需要 区 分 词汇 的 频 度 
高 低 , 不 仅仅 是 绝对 数值 的 问题 ,需要 具体 化 到 实际 应 用 的 场合 。 
在 已 有 金融 市 场 信息 的 异常 发 现 研究 基础 上 ,已 经 建立 了 异常 阔 
值 的 设 定 和 判断 标准 ,需要 通过 进一步 的 扩展 处 理 延 伸 到 其 他 领 
域 的 信息 异常 判断 中 。 

随 着 网 络 日 益 成 为 人 们 发 布 信息 ,沟通 信息 的 主要 媒体 ,网 络 
上 的 信息 也 越 来 越 能 反映 人 们 关注 的 焦点 和 社会 热点 事件 了 。 因 


需求 了 。 不 论 是 普通 用 户 还 是 行业 专家 都 希望 实时 地 跟踪 他 们 所 
关注 领域 的 最 新 热点 话题 或 者 新 闻 ,以便 了 解 该 领域 的 最 新 进展 。 

不 难 发 现 ,在 一 般 情 况 下 ,互联 网 信息 中 某 个 关键 词 大 量 集中 
出 现 往往 意味 着 某 个 热点 新 闻 或 者 热点 事件 的 发 生 , 而 当 发 生 了 
被 广泛 关注 的 新 闻 或 事件 时 ,又 会 在 网 络 上 集中 出 现 大 量 的 带 有 
相关 关键 词 的 文本 。 因 此 ,互联 网 文本 中 热点 关键 词 数 量 的 较 大 
变化 常常 反映 了 社会 热点 新 闻 或 事件 的 出 现 或 降温 ,而 网 络 上 反 
映 热点 新 闻 或 事件 的 文本 又 会 进一步 推动 广大 网 民 对 于 相关 新 闻 
和 事件 的 关注 程度 和 看 法 。 也 就 是 说 ,异常 高 的 关键 词 词 频 与 显 
著 的 热点 新 闻 和 事件 有 一 定 的 耦合 关系 。 所 以 ,这 里 ,为 对 与 情 信 
息 进行 研究 ,应 避 开 对 词 频 小 的 变化 问题 的 预测 ,只 关心 异常 高 的 
词 频 变化 量 。 这 个 技术 点 对 于 网 络 监管 机 构 、 关 注 社 会 热点 新 闻 
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和 事件 的 机 构 来 说 ,是 非常 有 价值 的 自动 跟踪 热点 词汇 出 现 频率 的 
技术 。 基 于 上 述 观察 ,对 与 情 热点 发 现 和 监测 ,我 们 讨论 一 种 基于 
UDAHIN( Universal Detection Algorithm for Hot Internet News) 
技术 的 与 情 信 息 热点 排名 方法 。 

不 同 词 有 不 同 的 出 现 词 频 ,而 在 某 日 ,不 同 出 现 词 频 的 词 的 相 
同 出 现 次 数 有 不 同 含义 。 对 于 一 个 使 用 频率 很 高 的 词 来 说 , 词 频 
的 历史 均值 和 历史 标准 差 都 很 大 ,例如 ,分 别 是 500 次 /天 和 
350 次 /天 。 如 果 在 某 一 天 ,其 互联 网 频率 增加 了 300 次 , 变 成 了 
800 次 , 即 增加 了 大 约 1 倍 , 那 么 一 般 仍 然 很 正常 ,但 是 ,如 果 其 互 
联网 频率 变 成 了 1200 次 , 即 增加 了 大 约 2 倍 , 就 预示 着 发 生 了 相 
应 的 热点 新 闻 或 事件 了 。 

而 对 一 个 频率 比较 低 的 词 ,平均 日 互联 网 出 现 频率 及 其 标 
准 差 很 小 ,例如 ,分 别 是 20 次 和 15 次 。 如 果 在 某 一 天 ,其 互联 
网 频率 增加 了 30 KÆRT 50 次 , 即 增加 了 大 约 1 倍 多 ,那么 
一 般 仍然 很 正常 ,但 是 ,如 果 在 某 一 天 ,互联 网 上 该 词 的 信息 量 
增加 了 300 次 , 变 成 了 320 次 , 则 预示 出 现 了 相应 的 热点 事件 

也 就 是 说 ,同样 是 增加 300 次 ,对 高 频 词 说 ,仍然 正常 ; 而 对 低 
频 词 来 说 , 则 说 明 出 现 了 异常 事件 。 即 对 具有 不 同 词 频 的 词 的 度 
量 ,标准 是 不 同 的 。 对 于 低频 词 , 上 述 的 300 次 出 现 次 数 称 为 异常 
高 的 词 频 增 加 量 。 这 里 在 热点 信息 排名 上 的 主要 目标 是 监测 异常 
高 的 词 频 增 加 量 ,进而 预测 网 络 热点 信息 的 出 现 或 降温 ,并 进行 必 
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要 的 报警 。 

Khoo 等 人 于 2001 年 提出 了 一 种 跟踪 热点 话题 的 方法 ,对 一 
些 定点 的 网 站 或 者 网 页 定期 统计 一 些 关 键 词 项 (term) 的 词 频 , 并 
利用 HXidf 公式 计算 每 个 term 的 当前 权重 ,并 从 中 得 到 当前 的 热 
点 话题 。 其 贡献 之 处 在 于 ,给 出 了 一 种 标准 化 的 公式 来 计算 每 个 
term 的 当前 权重 , 随 着 时 间 的 变化 ,这 个 权重 也 会 随 之 变化 ,从 而 
反映 出 互联 网 信息 热点 的 变化 情况 。 其 主要 缺点 在 于 ,没有 考虑 
每 个 term 的 历史 均值 和 历史 标准 差 , 因 此 无 法 按照 高 频 词 和 低频 
词 的 历史 表现 对 异常 的 热点 进行 准确 的 度量 ,只 能 对 各 个 term 进 
行 横向 的 比较 。 


2.9 本 章 小 结 


与 情 分 析 的 技术 有 很 多 ,典型 的 包括 关键 词 提取 、 摘 要 提取 、 
文本 倾向 性 分 析 、, 关 联 分 析 技 术 .主题 检测 和 追踪 、 与 情 热 点 发 现 
和 监测 等 。 在 关键 词 提取 中 ,tfXidf 是 较为 普遍 采用 的 方法 。 文 
档 摘要 技术 在 图 书馆 领域 和 自然 语言 处 理 领域 有 很 多 应 用 。 文 本 
倾向 性 分 析 可 以 得 出 文本 与 情 所 描述 的 情感 ,在 一 定 程 度 上 代表 
了 作者 的 感情 取向 ,决定 了 文本 内 容 的 襄 贬 含义 。 主 题 检 测 追 踪 
及 与 情 热点 是 与 情 分 析 的 重要 技术 手段 , 它 将 会 提升 与 情 的 监控 
与 监管 效率 。 


1. 简 述 社会 互联 网 与 情 分 析 的 主要 技术 。 
2. 掌握 关键 词 提取 及 摘要 提取 技术 。 
3. 总 结 文本 倾向 性 分 析 的 主要 步骤 。 


4. 了 解 网 络 话题 传播 动态 分 析 、 因 果 分 析 模 型 及 与 情 热点 发 
现 和 监测 方法 。 


5. 试 列举 网 络 话题 传播 动态 分 析 的 应 用 。 


社会 网 络 中 的 用 户 行为 


本 章 学 习 目 标 

。 熟悉 基于 用 户 行为 的 社区 网 络 概念 。 

。 了 和 解 社会 网 络 中 的 “社交 圈 ” 与 “兴趣 圈 ”。 
。 掌握 社会 网 络 用 户 行为 的 主要 方法 。 


区 别 于 一 般 的 互联 网 ,在 社会 网 络 中 ,有 一 大 类 是 社交 网 络 。 
这 类 网 络 的 用 户 ,不 但 有 内 容 , 用 户 间 还 形成 了 网 状 结构 (以 微 博 
为 例 ,如 图 3-1 所 示 )。 

用 户 去 “ 粉 ” 哪 些 不 同 的 用 户 , 以 及 “ 粉 ” 多 少 其 他 用 户 , 这 些 行 


为 ,直接 造成 了 用 户 在 社会 网 络 中 所 处 的 位 置 (包括 所 在 社区 、 在 
什么 样 的 路 径 以 及 用 户 的 重要 性 ) 。 


客户 交互 网 络 


图 3-1 微 博 平台 上 用 户 之 间 的 关系 网 络 
在 不 同 的 社会 网 络 中 ,用 户 之 间 往 往 存在 某 些 共同 特性 , 即 网 
络 的 群体 特性 。 一 般 情况 下 ,把 内 部 联系 紧密 、 外 部 联系 稀 朴 的 一 
群 用 户 称 为 社区 , 它 反映 了 网 络 元 素 之 间 的 拓扑 关系 和 功能 实体 ， 
在 不 同 的 应 用 领域 ,社区 代表 不 同 的 实体 关系 群 。 从 巨大 的 社会 
网 络 中 挖掘 出 社区 的 过 程 称 为 社区 发 现 , 是 社会 网 络 分 析 的 一 个 
基本 任务 。 
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3.2 基于 用 户 行 为 的 社区 网 络 


社区 发 现 研究 已 经 受到 研究 者 们 的 广泛 关注 ,社会 网 络 通常 
采用 图 结构 表示 ,针对 无 向 无 权 值 的 网 络 , Newman 和 Girvan 
(2004) 提 出 了 经 典 的 GN 算法 ,边界 数 概念 是 GN 算法 的 核心 内 
容 , 通 过 删除 边界 数 高 的 边 从 而 分 裂 得 到 整个 网 络 的 社区 结构 ,但 
是 ,GN 算法 由 于 计算 量 大 而 很 难 适用 于 用 户 数目 上 万 级 的 大 型 复 
杂 网 络 。 同 年 Newman 在 PANS 会 议 上 又 提出 了 衡量 社区 发 现 
优 劣 的 模块 度 Q 概念 ,之 后 ,最 大 化 模块 度 的 自 下 而 上 的 合并 算法 
和 优化 模块 度 的 发 现 算法 被 研究 者 广泛 提出 。 尽 管 最 大 化 模块 度 
Q 一 度 成 为 衡量 社区 发 现 优 劣 的 依据 ,但 是 由 于 其 依赖 于 全 局 的 
网 络 拓扑 结构 ,会 导致 大 的 计算 量 , 而 且 , 分 辩 率 限制 的 问题 也 是 
模块 度 优化 方法 的 症结 。 后 来 有 的 学 者 提出 了 派系 过 滤 算 法 
(clique percolation method, CPM) ,CPM 算法 的 本 质 是 认为 典型 
的 社区 应 是 全 连通 的 完全 子 图 ,全 连通 子 图 之 间 共 享 的 用 户 是 重 
释 用 户 ,其 主要 目的 就 是 找到 紧密 相连 的 完全 子 图 ,尽管 CPM 算 
法 对 社区 的 发 现 一 般 来 说 是 很 有 效 的 ,但 搜索 完全 子 图 是 非常 耗 
时 的 ,而 且 完 全 子 图 的 大 小 值 上 不 易 确 定 。 后 来 有 的 学 者 提出 的 
LFM 算法 从 局 部 拟 合 构造 社区 的 发 现 算法 ,局 部 性 反映 了 社区 的 
自然 特性 ,但 随机 选择 初始 用 户 会 影响 LFM 算法 的 社区 发 现 结 
果 , 它 与 以 往 从 点 的 角度 划分 社区 的 思路 不 同 ,其 核心 思想 是 将 边 
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看 做 点 ,重新 构造 点 之 间 的 相似 关系 而 构造 新 的 图 结构 。 图 的 男 
一 种 有 效 的 表示 形式 是 邻接 矩阵 ,因此 基于 邻接 矩阵 的 谱 分 类 方 
法 也 是 社区 发 现 的 常用 方法 。 谱 分 类 方法 的 核心 是 构造 邻接 矩阵 
的 拉 普 拉 斯 矩阵 ,通过 拉 普 拉 斯 矩阵 的 第 二 小 特征 根来 判断 用 户 
所 属 的 类 别 , 当 网 络 的 确 是 近似 地 分 成 两 个 社区 时 ,用 谱 平分 法 可 
以 得 到 非常 好 的 效果 ,但 是 , 当 网 络 不 满足 这 个 条 件 时 则 不 行 。 

随 着 网 络 不 断 变化 ,社会 网 络 的 形式 表现 出 多 样 化 。 多 样 化 
表现 突出 的 一 个 方面 是 网 络 链接 有 方向 性 ,在 实际 的 复杂 网 络 中 ， 
链接 关系 时 常 表现 出 非 对 称 性 ,比如 Twitter 的 用 户 关注 关系 、 科 
技 文献 网 络 的 引用 关系 、 网 页 之 间 的 超 链接 关系 等 应 用 网 络 。 因 
此 ,人 们 依据 信息 在 无 向 网 络 中 的 传播 行为 特性 ,以 及 有 向 网 络 中 
信息 游 走 的 方向 性 ,提出 了 共 社 区 的 邻近 相似 性 测量 方法 ,衡量 
用 户 在 同一 社区 的 通路 相似 性 ,应 用 邻近 相似 性 可 以 有 效 地 将 有 
向 图 中 的 方向 转化 为 方向 权 值 ,从 而 合理 地 将 有 向 转化 为 无 向 
网 络 。 

在 用 户 行为 角度 看 来 ,社会 网 络 能 够 增强 用 户 体验 ,从 初始 的 
“需求 识别 "和 “产品 发 现 ”, 到 “产品 选择 ”和 “产品 参照 ”。 

(1) 产品 发 现行 为 : 在 顾客 购物 行为 的 初始 进行 需求 认可 和 
产品 搜索 的 阶段 ,社会 网 络 能 够 帮助 顾客 预 估 一 些 新 的 产品 。 例 
如 ,在 网 上 论坛 和 社区 里 讨论 能 够 非常 有 用 地 帮助 顾客 更 加 明晰 
内 心 的 需求 ,同时 社会 网 络 中 的 一 些 顾客 推荐 或 参照 的 有 感染 力 
的 内 容 往往 能 够 帮助 用 户 与 那些 了 解 或 值得 信任 的 朋友 一 起 讨 
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论 ,发掘 新 的 产品 。 从 商业 角度 看 ,社会 网 络 在 产品 发 现 方面 的 应 
用 印证 了 其 “意识 助 推 器 ”的 角色 。 

(2) 产品 选择 行为 : 在 顾客 进行 实际 产品 选择 行为 的 阶段 , 社 
会 网 络 利用 一 些 独立 的 第 三 方 评 测 或 专家 建议 来 推动 顾客 的 购买 
决策 。 璧 如 ,便携 式 社会 化 图 谱 和 顾客 评级 及 评论 软件 。 社 会 网 
络 在 产品 选择 方面 的 应 用 扮演 了 * 决 策 催化 剂 的 角色 。 

(3) 产品 推荐 行为 : 购买 后 ,社会 网 络 能 够 帮助 人 们 分 享 其 
购物 经 历 ,将 一 些 感受 反馈 给 其 他 人 。 例 如 ,网 上 的 口碑 记录 应 
用 能 够 帮助 商家 们 意识 
诚 度 。 社 会 网 络 在 产品 推荐 方面 的 应 用 扮演 了 “主张 活化 剂 ”的 
角色 。 

这 里 的 每 一 步 都 彰显 着 社会 网 络 的 重要 性 ,然而 企业 是 否 
真 的 理解 用 户 行 为 却 存在 着 不 确定 性 ,如 推荐 的 产品 是 不 是 
对 ,新 产品 是 不 是 反响 不 错 , 产 品 是 不 是 存在 硬 伤 ,这 些 都 需要 
与 情 来 给 出 答案 ,社会 网 络 正 是 天 生 的 与 情 产 生地 ,科学 的 与 
情 研究 将 确认 企业 的 正确 策略 ,坚持 给 客户 更 好 的 体验 ,同时 ， 
通过 熏 情 发 现 不 足 乃 至 重大 错误 ,及 时 纠正 ,挽回 损失 ,更 好 地 
服务 用 户 。 

由 于 以 社交 网 站 、 微 博 、 微 信 、 视 频 分享 网 站 为 主 的 社会 网 络 
的 营销 尚 不 清晰 ,因而 , 找 出 社会 网 络 的 整体 特性 以 及 社会 网 络 
中 客户 行为 的 共有 属性 ,可 以 帮助 我 们 更 好 地 思考 社会 网 络 的 
本 质 。 
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3.3 ”社会 网 络 中 的 “社交 圈 ” 与 “兴趣 圈 ” 


“社交 圈 ” 与 “兴趣 圈 ” 是 促进 社会 网 络 持续 繁荣 ,维持 客户 关 
系 稳定 、 保 持 参 与 者 忠诚 度 的 重要 参考 准则 。 所 以 ,对 于 社会 网 络 
用 户 的 属性 ,我 们 可 以 从 “社交 圈 ” 与 “兴趣 圈 ” 两 个 层面 来 分 析 。 

1. 社交 圈 

从 狭义 上 来 说 ,社交 圈 是 我 们 日 常生 活 中 与 朋友 、 同 学 、 同 事 
之 间 的 各 种 关系 网 络 构成 的 一 个 人 际 圈子 ,从 广义 上 来 说 ,社交 轿 
可 以 延伸 为 我 们 每 个 人 的 生活 圈 。 

社交 圈 的 存在 让 营销 者 更 为 欣 昧 。 以 人 人 网 、Facebook 为 例 ， 
大 多 数 的 注册 会 员 都 是 来 自 于 各 个 高 校 的 学 生 ,那么 即便 日 后 会 
面临 毕业 .工作 ,生活 等 变迁 ,但 是 这 些 稳 固 的 同学 关系 却 永 远 不 
会 消失 。 同 样 ,在 以 白领 为 主要 客户 群体 的 开心 网 上 ,同事 间 的 关 
系 虽然 相对 于 同学 来 说 因为 变化 更 大 而 淡薄 一 些 , 但 是 依然 是 一 
种 相对 稳固 的 人 际 关系 (Poyry,2013)。 互 联网 社交 圈 的 建立 与 发 
展 还 取决 于 社交 网 站 客户 的 交互 方式 (Backstrom,2006)。 社 交 轿 
中 不 同 身份 的 人 的 影响 力也 不 尽 相 同 (Stutzman,2006) 。 

社交 图 对 于 网 络 营 销 来 说 无 疑 有 着 积极 的 促进 作用 ,无 论 是 
品牌 的 创建 或 者 是 促销 的 推进 ,在 稳定 网 络 中 的 传播 广度 与 深度 ， 
都 会 比 大 众 网 络 更 有 优势 。 

社交 圈 的 分 享 也 可 以 分 为 两 种 : 一 种 是 消费 者 主动 的 分 享 ， 
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一 种 是 营销 者 促使 的 被 动 分 享 。 被动 分 享 一 般 都 是 由 网 络 营销 者 
来 促成 的 ,发 起 者 往往 会 针对 消费 者 和 潜在 客户 的 商品 促销 信息 
与 订单 信息 的 分 享 ,发布 行 为 给 予 一 定 的 奖励 ,以 这 种 激励 方式 达 
到 促销 以 及 品牌 传播 的 目的 。 

2. 兴趣 圈 

从 理论 上 说 ,兴趣 圈 的 范畴 应 该 要 比 社交 圈 更 大 一 些 。 相 对 
于 社交 网 站 的 社交 圈 为 主 的 状况 , 微 博 、 群 组 ,知识 分 享 平 台 、 视 频 
图 片 网 站 、 团 购 、LBS 服务 等 ,大 多 都 是 基于 兴趣 形成 的 社会 化 的 
关系 网 络 。 当 然 , 广 义 上 来 说 这 种 因为 兴趣 而 产生 的 关系 网 络 也 
属于 社交 范畴 ,但 是 单纯 从 社会 网 络 的 类 别 、 数 量 上 来 区 分 的 话 ， 
因为 兴趣 而 形成 的 社会 网 络 种 类 更 多 、 品 种 更 齐全 。 

在 常见 的 社会 网 络 中 ,除了 社交 网 站 之 外 ,还 存在 大 量 的 其 他 
网 站 。 比 如 以 维基 百科 、 百 度 百科 为 代表 的 知识 分 享 平 台 ; 以 
Twitter、 新 浪 微 博 、 腾 讯 微 博 为 代表 的 微 博 平台 ; 以 YouTube, fit 
酷 为 代表 的 视频 分 享 网 站 ; 以 Flickr 为 代表 的 视频 分 享 网 站 ; 以 
豆瓣 .百度 文库 为 代表 的 文档 分 享 网 站 ; 以 大 众 点 评 为 代表 的 消 
费 评 论 网 站 ,甚至 包括 各 种 团购 网 站 以 及 以 微 信 为 代表 的 移动 客 
户 端 上 的 平台 ,其 实 都 属于 兴趣 圈 网 络 的 范畴 。 

以 兴趣 圈 形 成 的 网 络 具 备 一 些 特殊 的 特性 , 那 就 是 社会 网 络 
的 自 优 化 特性 。 以 最 典型 的 新 浪 微 博 为 例 ,对 于 一 个 商家 或 者 公 
众 意见 领袖 来 说 ,普通 的 网 民 与 之 形成 的 关注 但 是 不 相互 关注 的 
关系 从 本 质 上 来 说 并 非 是 社交 关系 。 同 样 地 ,这 种 大 多 数 时 候 的 
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单 向 互动 也 完全 不 符合 社会 网 络 的 互动 特性 ,而 只 是 类 似 于 更 多 
的 媒体 中 心 ,进行 单 向 的 信息 传递 而 已 (Bouras,2004) 。 

对 于 商家 来 说 ,交互 从 来 也 都 不 是 充分 的 ,而 这 正 是 社交 圈 之 
所 以 存在 的 原因 和 价值 。 社 交 圈 可 以 分 为 陌生 人 购物 分 享 网 络 ， 
例如 蘑菇 街 、 美 丽 说 ,以 及 熟人 圈 社 交 网 络 例 如 微 博 `. 人 人 网 等 。 
对 于 商家 来 说 ,他 们 更 关注 的 是 这 些 人 是 否 真正 对 他 的 商家 和 产 
品 感 兴 趣 , 而 对 于 每 一 个 客户 的 深度 交流 ,只 能 作为 一 个 远景 却 未 
必 能 实现 。 社 会 网 络 活动 中 的 自 优化 功能 会 帮助 商家 找寻 到 最 忠 
实 的 客户 ,也 就 是 长 期 留存 下 来 的 稳定 网 络 。 


3.4 ”社会 网 络 用 户 的 行为 


社会 网 络 的 用 户 有 其 自身 行为 规律 。 

首先 ,研究 发 现 ( 曹 润 ,2012) ,从 数量 上 看 ,原创 型 微 博 与 转发 
型 微 博 几 乎 各 自 占据 了 “半壁 江山 ”, 原 创 微 博 所 占 比 例 略 高 于 转 
发 微 博 所 占 比例 ,这 说 明 发 表 观 点 与 传递 信息 在 微 博 中 有 着 几乎 
同等 的 重要 地 位 。 原 创 和 转载 占 总 体 的 92. 21%, 占 绝 大 多 数 ,是 
转载 数 远 远大 于 评论 的 数量 ,这 与 微 博 中 转发 过 程 常 常 伴随 着 评 
论 的 特性 有 关 , 如 图 3-2 和 图 3-3 所 示 。 大 V 用 户 是 最 为 “勤劳 ”的 
内 容 贡 献 用 户 ,平均 微 博 字数 为 53. 65 个 字 , 远 远 高 于 其 他 类 型 的 
用 户 , 其 原创 微 博 的 平均 字数 高 达 81. 71 个 字 , 可 以 看 做 大 V 用 户 
的 原创 微 博 中 包含 更 大 的 信息 量 。 女 性 用 户 原创 微 博 字 数 比 男性 
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高 很 多 , 且 女 性 用 户 原创 微 博 的 字数 是 转发 的 近 4 倍 ,而 男性 用 户 
原创 微 博 的 字数 是 转发 微 博 的 字数 的 3. 45 倍 , 显 示 性 别 对 “ 微 博 
风格 ”会 产生 比较 大 的 影响 。 例 如 女性 可 能 更 倾向 于 详细 地 描述 
一 个 事件 或 一 种 物品 ,而 对 转发 的 内 容 简 短 地 发 表意 见 , 而 男性 用 
户 倾向 于 相对 简短 地 叙述 。 
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图 3-2 不 同类 型 微 博 数量 分 布 


图 3-3 不 同类 型 微 博 比 例 分 布 
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其 次 ,不 同类 型 的 微 博 转发 的 次 数 不 尽 相同 如 表 3-1 所 示 , 包 
含 图 片 的 微 博 转发 数 均值 为 256. 2, 不 包含 图 片 的 为 26. 4。 很 明 
显 ,不 包含 多 媒体 信息 的 微 博 平 均 转发 量 远 远 低 于 包含 多 媒体 信 
息 的 微 博 平均 转发 量 , 说 明 包 含 多 媒体 的 微 博 携 带 的 信息 量 更 大 ， 
带 来 了 更 大 的 转发 量 , 更 容易 造成 较 大 的 影响 。 


表 3-1 不 同 微 博 类 型 的 微 博 转发 数 


包含 多 媒体 不 包含 

x 256. 2 26.4 
音乐 456.7 66.6 
221.3 66.1 


再 次 , 微 博 转发 影响 力也 不 尽 相 同 。 我 们 曾 完成 如 下 实验 。 
假设 没有 被 转发 的 微 博 没 有 造成 转发 影响 ,以 转发 次 数 与 微 博 数 
目的 乘积 之 和 作为 整体 的 微 博 影响 力 。 实 验 发 现 ,通过 分 析 微 博 
的 转发 次 数 , 并 与 其 微 博 用 户 关 联 , 显 示 微 博 转发 数 count 值 大 于 
357 的 微 博 转发 量 累 计 占 80%, 仅 来 自 1367(7. 93%) 名 用 户 ; 
count 大 于 93 的 微 博 转 发 量 累 计 占 90% HA 2124(12. 32%) 名 
用 户 , 显 示 10% 左 右 的 用 户 贡 献 了 90% 的 微 博 影响 力 。 

我 们 进一步 根据 微 博 类 型 进行 分 析 , 对 于 原创 型 微 博 : 
count 大 于 695 的 微 博 的 累计 转发 量 占据 总 转发 量 的 80% ,来 自 
965(5. 60%) 名 用 户 ; count 大 于 217 的 微 博 的 累计 转发 量 占据 总 
转发 量 90%, 来 自 1402(8. 13%) 名 用 户 。 对 于 转发 型 微 博 : 
count 大 于 60 的 微 博 累 计 转 发 量 占 中 转发 量 的 80. 1%, 来 自 
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1633(9. 48%) 名 用 户 ; count 大 于 29 的 微 博 累 计 转 发 量 占 总 转发 
量 的 90.1% ,来自 2009(11. 66%) 名 用 户 。 原 创 聚集 现 象 更 加 明 
显 ,更 加 少量 的 活路 用户 贡献 了 更 多 的 内 容 。 

我 们 的 研究 选取 腾讯 微 博 17232 名 用 户 ,共计 10995827 条 微 
博 ,分 析 研 究 微 博 的 用 户 内 容 生 成 模式 。 研 究 发 现 每 日 的 发 布 微 
博 数 曲 线 呈 现 波动 上 升 的 趋势 ; 较 少 量 的 用 户 发 布 了 绝 大 多 数 的 
微 博 ; 不 同类 型 的 用 户 有 着 不 同 的 “ 微 博 风格 ”。 

我 们 总 结 出 微 博 用 户 内 容 生成 的 一 些 特点 : 

(1)“90-10? 规 则 : 微 博 显示 出 了 一 种 用 户 内 容 生 成 更 明显 的 
聚集 性 ,表现 出 一 种 “90-10? 规 律 , 更 加 少量 的 活跃 用 户 贡献 了 更 
多 的 内 容 , 如 13.19% 的 用 户 发 布 了 90% 的 微 博 ; 更 加 集中 的 某 一 
部 分 微 博 造 成 了 更 大 的 影响 力 ,原创 型 微 博 的 总 转发 影响 力 的 
90% 来 自 8. 13% 名 用 户 ,转发 型 微 博 11. 66% 的 用 户 贡 献 了 90% 
的 微 博 转发 影响 力 。 

(2) 用 户 所 发 原创 微 博 所 含 字 数 均 明显 大 于 转发 微 博 , 在 女 
性 用 户 中 的 差距 更 大 ,大 V 用 户 所 发 微 博 平均 长 度 是 非 大 V 用 户 
所 发 微 博 长 度 的 1.5 倍 。 

(3) 包含 多 媒体 的 微 博 携带 的 信息 量 更 大 , 带 来 了 更 大 的 转 
发 量 ,更 容易 造成 较 大 的 影响 。 

用 户 内 容 生 成 分 析 在 基于 微 博 的 研究 中 有 极其 重要 的 价值 ， 
同时 随 着 微 博 用 户 大 规模 增加 , 微 博 内 容 的 影响 也 不 断 扩大 , 微 博 
的 用 户 内 容 生 成 分 析 对 了 解 信息 分 享 型 的 社会 网 络 的 本 质 规律 有 
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着 极 大 的 意义 。 在 今后 的 工作 中 ,我 们 会 收集 更 加 全 面 更 具 代表 
性 的 数据 ,对 数据 进行 更 深层 次 的 分 析 , 挖 掘 出 更 有 效 的 用 户 行为 
模式 ,以 优化 相关 研究 结果 。 

事实 上 ,网 络 用 户 行为 的 研究 与 心理 学 、 社 会 学 、 社 会 心理 
学 、 人 类 学 以 及 一 切 与 网 络 行为 有 关 的 学 科 密 切 相 关 , 它 研究 网 
络 用 户 行为 的 规律 性 ,借以 控制 并 预测 网 络 用 户 行为 ,并 为 实现 
政治 的 ,经 济 的 和 文化 的 目的 服务 。 具 体 讲 , 网 络 用 户 行为 研究 
就 是 分 析 网 络 用 户 的 构成 、 特 点 及 其 行为 活动 上 所 表现 出 来 的 
规律 。 

目前 有 关 社 会 网 络 用 户 行为 的 分 析 研 究 ,主要 集中 在 以 下 几 
个 方面 : 

(1) 基于 用 户 行为 模型 的 方法 。 王 实 等 (2012) 提 出 了 一 种 基 
于 隐 马 尔 科 夫 模型 的 兴趣 迁移 模式 发 现 方法 ,通过 分 析 用 户 迁 移 
模式 间 的 关联 规则 来 发 现 用 户 行为 特征 和 兴趣 迁移 变化 ; 张 振 国 
等 (2013) 提 出 了 基于 序列 模式 挖掘 的 社交 网 络 用 户 行 为 分 析 模 
型 ,该 模型 以 社会 网 络 群体 用 户 为 研究 对 象 ,引入 序列 模式 挖掘 的 
方法 实现 用 户 行为 分 析 , 最 终 获得 用 户 的 频繁 行为 序列 模式 ,其 分 
析 结 果 能 够 反映 用 户 行为 之 间 的 有 序 相 关 性 ,因此 可 以 为 策略 制 
定 提供 更 好 的 支持 ; 肖 玉 芝 等 (2014) 提 出 了 利用 超 图 的 数学 理论 
建立 用 户 行为 的 超 网 络 模型 ,通过 分 析 实 体 用 户 、 用 户 活动 .用 户 
兴趣 三 维度 的 映射 关系 ,在 某 论坛 的 真实 数据 验证 了 该 模型 能 够 
快速 定位 用 户 并 刻画 出 用 户 兴 趣 爱 好 的 差异 性 。 
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(2) 基于 统计 方法 分 析 用 户 行为 的 方法 。 何 静 等 (2013) 提 出 
了 基于 统计 学 的 方法 从 个 体 和 群体 层面 对 微 博 的 网 络 拓 扑 结 构 和 
用 户 的 行为 进行 统计 分 析 , 研 究 发 现 微 博 用 户 的 行为 表现 出 多 重 
的 标 度 特性 和 复杂 性 ,在 此 基础 上 ,结合 人 类 行为 动力 学 理论 得 出 
了 微 博 用 户 行为 的 一 些 共性 。 

(3) 基于 用 户 行 为 特征 的 方法 。Anagnostopoulos 等 (2008) 
通过 研究 社会 影响 力 , 找 出 了 社交 网 络 用 户 行为 的 变化 原因 ,并 在 
此 基础 上 分 析 用 户 行为 变化 趋势 ; Goyal 等 (2010) 通 过 研究 ,解决 
如 何 从 用 户 的 历史 记录 里 学 习 影响 的 概率 ,并 得 到 分 析 预 测 结果 ; 
史学 敏 通过 研究 时 区 差异 对 社交 网 络 用 户 行为 的 影响 (史学 敏 ， 
2011) ,发 现 社交 网 络 用 户 行为 呈现 时 区 特性 ,以 此 建立 了 用 户 行 
为 特征 。 


3.5 本章 小 结 


对 社会 网 络 的 研究 ,不仅 要 讨论 其 节点 的 内 容 , 还 要 探索 其 节 
点 之 间 “ 织 成 ”的 网 络 结构 。 这 些 结构 上 的 关系 ,直接 造成 了 节点 
用 户 的 行为 。 网 络 结构 形成 了 各 种 各 样 的 “社交 圈 ” 与 “兴趣 圈 ”。 
有 关 社 会 网 络 用 户 行为 的 分 析 研 究 , 主 要 包括 基于 用 户 行为 模型 
的 方法 、 基 于 统计 方法 分 析 用 户 行为 的 方法 以 及 基于 用 户 行为 特 
征 的 方法 。 
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1. 了 解 基于 用 户 行为 的 社区 网 络 。 
2. 简 述 社会 网 络 中 的 “社交 圈 ” 与 “兴趣 圈 ” 的 内 容 。 
3. 试 列 社会 网 络 用 户 行为 的 分 析 方 法 。 


本 章 学 习 目 标 
。 熟悉 企业 在 线 和 与 情 的 分 析 预 警 管理 模型 。 
。 了 解 企业 在 线 和 与 情 的 干预 处 置 管理 模型 。 


社会 网 络 大 数据 环境 下 的 企业 与 情 也 为 研究 与 情 对 企业 经 营 
管理 绩效 的 影响 、 和 与 情 传播 发 展 规律 以 及 与 情 管理 方法 手段 的 效 
果 提 供 了 良好 的 条 件 。 作 为 数字 化 记录 的 用 户 内 容 , 在 线 企 业 与 
青 具有 良好 的 可 追溯 性 ,使 得 企业 与 情 的 定量 刻画 成 为 可 能 。 比 
如 ,网 络 用 户 历 史上 发 布 的 关于 企业 的 文字 、 图 片 、 多 媒体 等 信息 
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均 可 在 网 络 中 检索 得 到 ,从 而 汇总 得 到 企业 与 情 的 历史 记录 。 将 
企业 与 情 的 传播 发 展 走势 与 企业 经 营 管理 绩效 和 股票 市 场 表 现 进 
行 分 析 , 便 可 得 到 与 情 对 企业 经 营 管理 绩效 的 影响 ; 具体 分 析 企 
业 熏 情 传 播发 展 的 历史 变化 情况 ,可 以 得 到 企业 奥 情 传播 发 展 的 
一 般 规律 ; 更 进一步 的 ,通过 对 比 观察 企业 采取 与 情 管理 方法 手 
段 后 企业 和 与 情 的 发 展 情况 ,可 以 得 到 对 应 与 情 管理 方法 手段 对 企 
业 奥 情 传播 发 展 的 作用 。 例 如 ,电子 商务 平台 上 在 线 评 论 的 出 现 
和 积累 ,使 得 营销 领域 的 学 者 得 以 实证 检验 消费 者 口碑 (word of 
mouth) 对 于 企业 产品 销售 的 影响 (Chevalier 和 Mayzlin, 2006)。 
例如 郭 小 狼 和 陈 蓓 一 (2009) 探 讨 了 网 络 上 的 口碑 效应 ,并 研究 了 
这 些 效 应 与 购买 意愿 的 关系 。 郑 小 平 (2008) 从 商家 视角 讨论 了 在 
线 评论 与 购买 决策 的 关系 。 施 晓 善 和 梁 循 (2015) 讨 论 了 在 线 评 级 
和 评论 对 消费 者 购买 决策 的 影响 。 

同样 , 随 着 社会 性 应 用 的 广泛 使 用 ,用 户 间 的 社会 网 络 关系 
及 信息 交换 过 程 也 得 到 了 数字 化 的 体现 。 比 如 ,对 于 网 络 用 户 ， 
可 将 其 表示 为 社会 网 络 中 的 节点 ; 对 于 网 络 用 户 间 加 好 友 、 设 关 
注 等 操作 ,可 将 其 表示 为 社会 网 络 中 节点 间 关 系 的 建立 ; 对 于 网 
络 用 户 阅 读 好 友 博 文 及 转发 .分 享 好 友 日 志 等 行为 ,可 将 其 表示 
为 企业 信息 在 社会 网 络 内 的 传播 。 这 就 使 得 企业 与 情 研究 可 以 
考虑 其 中 用 户 间 的 社会 网 络 背 景 : 深入 分 析 网 络 中 不 同类 型 节 
点 在 企业 熏 情 传播 ,发 展 中 的 作用 ,网 络 结构 对 于 企业 熏 情 传播 、 
发 展 的 影响 ,并 针对 特定 的 网 络 结构 设计 相应 的 与 情 管理 方法 手 
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段 。 例 如 ,以 往 关于 公共 与 情 的 研究 往往 根据 假定 的 社会 网 络 结 
构 及 意见 影响 机 制 分 析 给 定 初始 状态 的 意见 收敛 结果 ,通过 建 模 
及 模拟 实验 得 到 相应 的 结论 (Nowak 等 ,1990) 。 而 在 线 记 录 的 
出 现 使 得 以 往 的 模型 得 以 实证 检验 ,并 为 更 加 符合 实际 的 新 模型 
的 提出 提供 了 可 能 。 例 如 ,在 企业 产品 与 情 方面 , Ye 等 (2011) 通 
过 使 用 多 元 回归 的 统计 方法 ,实证 研究 了 企业 绩效 和 网 络 评论 的 
关系 ,他 们 发 现 ,在 旅游 业 , 好 的 评论 可 以 使 销售 量 增 加 10% 
左右 。 

社会 网 络 与 情 对 企业 经 营 绩效 存在 着 相互 影响 的 关系 如 
图 4-1 所 示 。 在 社会 网 络 与 情 的 影响 下 ,营销 管理 .客户 关系 
管理 .生产 管理 .信息 管理 .财务 管理 都 需要 在 企业 与 情 管理 的 
驱动 下 随 之 变革 和 创新 。 优 质 的 企业 与 情 管理 可 以 改善 企业 
的 客户 关心 ,促进 销售 ,从 而 给 企业 带 来 充裕 的 资金 ,提供 企业 
的 绩效 ; 反 过 来 ,好 的 企业 绩效 也 会 在 社会 网 络 上 产生 正面 的 
企业 与 情 。 
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图 4-1 网络 与 情 对 企业 经 营 绩效 的 相互 影响 关系 
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ABS Mb Pe 265 EL NS A SH aa A A A A A AS BA E 
Al FEL AIL ht FA Bh HE SA GAR, i) t BE ak EE eH 
Th ACHE is Me PA e BH Ao TS EH HET AT Le, HE Sa 
情 的 预警 等 级 可 以 划分 为 : RE CV BR AB A AS) PE FAC 
级 ,警示 级 ). 重 警 情 ( 开 级 ,危险 级 ) 和 特 重 警 情 ( 工 级 ,极度 危险 
级 ) 四 个 等 级 ,并 依次 采用 蓝 黄 杰 红 四 种 颜色 来 加 以 表示 ,如 图 4-2 


所 示 。 
特 重 警 情 级 
mete 级 


中 度 警 情 亚 级 


图 4-2 与 情 警报 分 级 颜色 示意 图 
WE EAC BL) 该 类 与 情 所 受 的 关注 度 低 ,传播 速度 慢 , 影 
响 范 围 小 ,不 可 能 转化 为 与 论 。 
黄色 级 ( 焉 级) : 该 类 和 与 情 所 受 的 关注 度 较 高 ,传播 速度 中 
等 ,具有 一 定 的 影响 范围 ,不 可 能 转化 为 与 论 。 
FERM JO: 该 类 与 情 受 到 很 高 的 关注 ,传播 速度 快 , 影 
响 范围 很 大 ,各 类 媒体 都 较为 关注 ,有 可 能 转化 为 与 论 。 
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。 红色 级 ( 工 级 ) : 该 类 与 情 受到 极 高 的 关注 ,传播 速度 非常 
快 ,影响 扩大 到 了 整个 社会 ,即将 化 为 与 论 。 
在 已 有 的 研究 中 ,主要 包括 四 类 模型 : 基于 模糊 推理 的 网 络 
预警 模型 .基于 情感 倾向 分 析 方 法 的 与 情 预警 模型 .基于 Web 
数据 挖掘 方法 的 与 情 预 警 模型 以 及 基于 网 络 与 情 指 标 分 析 方法 的 
预警 模型 。 
1. 基于 模糊 推理 法 的 舆情 预警 管理 模型 
基于 模糊 推理 的 网 络 与 情 预警 方法 主要 是 引入 了 ”战场 威胁 
估计 ?理论 ( 汤 志 荔 ,2011) 来 进行 研究 。 战 场 威胁 估计 指 的 是 对 政 
方 的 攻击 能 力 及 威胁 程度 进行 定量 评估 ,并 将 判别 结果 划分 等 级 。 
这 种 方法 利用 网 络 与 情 社 会 学 研究 成 果 , 分 析 网 络 与 情 对 社 
会 影响 的 主要 因素 ,选取 包括 话题 重要 度 .情感 倾向 性 .话题 关注 
度 、 公 众 数量 传播 速度 在 内 的 5 种 网 络 熏 情 分 析 指 标 ; 从 计算 机 
可 实现 性 出 发 ,对 各 分 析 指 标 及 与 情 预 警 等 级 进行 模糊 化 ,构建 相 
应 的 网 络 和 与 情 分 析 指 标 , 在 此 基础 上 ,采用 模糊 推理 技术 自动 判断 
网 络 与 情 预 警 等 级 ( 李 弱 程 ,2010; 杜 智 涛 ,2013; 李纲 ,2014) 。 
该 方法 将 网 络 与 情 中 的 话题 对 应 于 战场 的 目标 ,将 网 络 与 情 
中 的 公众 对 应 于 战场 的 环境 ( 黄 晓 斌 ,2010)。 这 种 预警 方法 的 主 
要 过 程 是 利用 战场 威胁 估计 的 思想 和 方法 ,分 析 网 络 与 情话 题 ,得 
出 其 中 对 社会 影响 程度 较 高 的 属性 ,利用 此 属性 来 自动 评估 其 对 
社会 的 影响 程度 ,得 到 一 个 评估 值 ,划分 预警 等 级 ,从 而 达到 进 
自动 预警 的 目的 。 


第 4 章 企业 网 络 奥 情 管理 的 模型 ee 


2. AETI ER Aa ad yr TSE A aS RR 

网 络 熏 情 危 机 预警 的 成 功 与 否 ,主要 体现 在 能 否 每 天 从 海量 
的 网 络 信 息 中 捕捉 到 或 分 析出 潜在 的 重大 与 情 生成 点 ,而 从 技术 
角度 进行 自然 语言 处 理 的 情感 倾向 性 分 析 技 术 , 能 从 大 量 的 信息 
中 提取 信息 提供 者 对 于 某 一 对 象 所 持 的 立场 ,识别 信息 中 所 包含 
的 主观 意见 ( 张 超 ,2008; 吉祥 ,2010; 项 斌 ,2010; 丁 菊 玲 ,2011) 。 

情感 倾向 性 分 析 也 被 称 为 情感 分 类 、 情 感 分 析 、 文 本 意见 挖 
掘 、 观 点 挖掘 等 ,涉及 自然 语言 处 理 、 信 息 检 索 .数据 挖掘 等 研究 领 
域 。 一 般 分 为 文档 级 观点 挖掘 和 语句 级 观点 挖掘 ,其 情感 倾向 包 
括 简单 的 赞同 .反对 、 中 立 三 种 态度 ,也 包括 对 某 一 对 象 所持 态 度 
的 强度 ,甚至 与 论 对 该 对 象 的 具体 看 法 和 态度 等 。 该 方法 主要 从 
海量 的 Internet 数据 中 采集 与 论 的 相关 信息 ,获取 广大 民众 的 主 

观 观点 ,并 依据 民众 的 观点 对 可 能 引发 网 络 与 情 危 机 的 事件 或 与 

论 进行 预警 。 

3. 基于 Web 数据 挖掘 法 的 舆情 预警 管理 模型 

基于 Web 数据 挖掘 的 预警 就 是 从 网 络 中 提取 与 目标 相关 的 
数据 ,对 网 络 数据 进行 网 页 特征 提取 、 基 于 内 容 的 网 页 聚 类 、 网 络 
内 容 关联 规则 ,得 到 与 Web 挖掘 目的 相关 的 目标 数据 集 , 然 后 通 
过 站 点 识别 .数据 选择 .数据 净化 .用 户 识 别 和 会 话 识别 等 数据 预 
处 理 的 方法 对 目标 数据 集中 “杂质 ”数据 进行 过 滤 , 将 多 个 数据 源 
中 的 数据 统一 存储 ,利用 路 径 分 析 .关联 规则 挖掘 .时 序 模式 发 现 、 
肾 类 和 分 类 等 挖掘 技术 从 存储 数据 中 挖掘 出 有 效 的 、 新 颖 的 、 潜 在 
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的 .有 用 的 及 最 终 可 以 理解 的 信息 和 知识 ,最 后 利用 合适 的 工具 和 
技术 对 挖掘 出 来 的 模式 进行 分 析 、 解 释 , 并 能 够 根据 分 析 结 果 对 网 
络 熏 情 进 行 危机 预警 ( 张 亮 ,2009; 何 佳 ,2010; 张 一 文 ,2012) 。 

利用 Web 数据 挖掘 进行 预警 有 以 下 四 个 步骤 : 

(1) 采集 数据 。 即 从 Web 中 提取 与 网 络 与 情事 件 相 关 的 数 
据 , 形 成 目标 数据 集 。 

(2) 预 处 理 数 据 。 过 滤 目 标 数 据 集 中 的 数据 ,将 杂质 数据 去 
除 掉 , 并 将 不 同 数据 源 的 数据 统一 存储 ,便于 数据 挖掘 。 

(3) 模式 发 现 。 利 用 挖掘 算法 挖掘 出 有 效 的 ,新 颖 的 、 潜 在 
的 .有 用 的 及 最 终 可 以 理解 的 信息 和 知识 。 

(4) 模式 的 分 析 和 预警 。 利 用 合适 的 工具 和 技术 分 析 解 释 挖 
掘 出 来 的 模式 ,并 能 够 根据 分 析 结 果 对 网 络 熏 情事 件 的 危机 进行 
预警 ( 李 季 梅 ,2009)。 

4. 基于 网 络 与 情 指 标 分 析 法 的 与 情 预 罗 管 理 模型 

在 网 络 与 情 的 发 生发 展 的 过 程 中 往往 会 表现 出 一 系列 的 特 
性 ,所 以 很 多 学 者 在 研究 分 析 了 网 络 熏 情 的 基本 特征 后 ,遵循 一 些 
原则 ,采用 一 定 的 科学 方法 来 确定 网 络 与 情 的 关键 指标 、 指 标 维度 
和 分 析 指 标量 化 等 ,建立 网 络 与 情 危机 预警 指标 体系 ,然后 运用 一 
定 的 科学 合理 的 数学 方法 建立 预警 模型 ,进行 网 络 与 情 的 预警 ( 曾 
润 喜 ,2009 和 2010; WIR .2009). 

目前 对 于 网 络 与 情 危 机 预警 的 指标 体系 的 研究 已 经 越 来 越 
多 ,但 是 仍然 存在 很 多 不 足 , 主 要 有 : 


第 4 章 企业 网 络 熏 情 管理 的 模型 Rack 


Q) ACB HE has tae HC Dd ee Dd e BH R BE A eS 
络 中 的 语言 .图 片 .声音 甚至 传播 网 络 结构 等 体现 的 ,指标 量化 时 ， 
尽管 不 少 文献 给 出 了 详尽 的 末 级 指标 量化 说 明 及 数据 获取 方法 ， 
例如 李 实 等 (2009) 探 索 了 面向 博客 .BBS 等 网 站 评论 内 容 中 产品 
特征 提取 及 相关 技术 ,但 是 在 实际 应 用 中 ,往往 会 很 难以 获得 需要 
的 数据 ,或 者 获得 数据 的 效率 太 低 等 问题 ,从 而 影响 危机 预警 的 及 
时 性 和 有 效 性 。 

(2) 缺乏 防御 性 预警 指标 。 现 在 大 多 数 网 络 与 情 危机 预警 的 
研究 都 是 用 以 进行 事后 评估 的 指标 体系 ,同时 寻找 较 好 的 防御 性 
预警 指标 比较 困难 ,效果 无 法 进行 有 效 评 估 。 

(3) 大 多 指标 体系 包含 较 多 的 定性 指标 。 一 般 定性 指标 都 是 
通过 专家 打分 法 获得 ,存在 一 定 的 主观 性 ,就 可 能 会 影响 对 网 络 与 
情 信 息 判 断 的 客观 性 和 准确 性 。 


4.3 企业 在 线 与 情 的 干预 处 置 管理 模型 


1. 基于 生命 周期 理论 的 舆情 处 置 管理 模型 
命 周期 (life cycle) 是 指 将 事务 视 为 "从 摇篮 到 坟 幕 ”(cradle- 
to-grave) 的 生命 运动 过 程 的 一 种 表述 ( 谢 科 范 ,2010)。 生 命 周 期 
理论 认为 ,事物 一 般 经 过 发 展 、 成 长 .成 熟 、 衰 退 等 几 个 重要 阶段 ， 
周而复始 循环 反复 。 在 信息 科学 领域 ,信息 的 内 在 价值 与 使 用 价 
值 会 始终 跟随 客观 世界 的 运动 而 转移 变化 ,并 表现 出 类 似 有 机 生 
命 体 的 周期 性 运动 特征 ( 林 光 ,2005) 。 
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企业 网 络 与 情事 件 产生 后 一 般 都 会 经 历 酝 酿 期 .爆发 期 .高 潮 
期 消退 期 和 平稳 期 五 个 阶段 的 生命 周期 ( 史 波 ,2010; 谢 科 范 ， 
2010; 王国 华 ,2012; 周 伟 恒 ,2013)。 奥 情事 件 发 生 后 ,首先 进入 
酝酿 期 ,到 达 一 定 程度 后 ,随即 进入 爆发 期 ,以 较 快 的 速度 进行 传 
播 ,在 短 时 间 内 便 会 进入 高 潮 期 。 在 高 潮 期 持续 一 段 时 间 后 ,企业 
网 络 和 与 情 进入 消退 期 ,其 消退 速度 由 快 而 慢 , 切 持 续 时 间 较 长 , 企 
业 网 络 与 情 在 消退 期 间 还 可 能 出 现 反 复 。 消 退 期 结束 后 便 进入 平 
稳 期 ,但 在 平稳 期 ,企业 网 络 与 情 影响 并 不 为 零 ,而 是 起 伏 比 较 小 、 
影响 力 比 较 小 。 

明确 企业 网 络 与 情 的 信息 生命 周期 对 提升 企业 网 络 与 情 的 管 
理 水 平 具有 重大 意义 。 企 业 网 络 与 情 的 生命 周期 管理 与 其 相关 联 
领域 活动 的 生命 周期 相 结合 ,揭示 了 同一 主题 领域 的 网 络 与 情 的 
发 展 过 程 ,可 以 使 我 们 更 有 效 地 把 握 熏 情 的 价值 变化 ,提高 对 与 情 
的 走势 进行 预知 管理 。 此 外 ,相关 领域 的 活动 流程 如 果 体现 出 了 
生命 周期 的 流程 ,那么 相关 领域 活动 的 生命 周期 与 网 络 熏 情 的 生 
命 周期 可 以 进行 联系 研究 ,从 而 揭示 某 一 主题 领域 活动 生命 周期 
和 其 网 络 奥 情 生命 周期 的 相关 关系 ( 胡 昌 平 ,1995)。 

2. 基于 施 拉 姆 理论 的 舆情 处 置 管理 模型 

研究 信息 交流 的 本 质 和 规律 的 一 种 重要 的 方法 就 是 研究 信息 
交流 模式 ( 肖 勇 ,2001)。 比 较 著名 的 信息 交流 模式 有 申 农 - 维 弗 的 
通信 模型 拉 斯 韦 尔 的 5W 模型 、. 施 拉 姆 模型 、 维 克利 的 S-C-R 模 
型 。 申 农 - 维 弗 通信 模型 为 信息 交流 传播 过 程 黄 定 了 基础 , 拉 斯 韦 
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尔 的 5W 模型 关注 交流 的 效果 和 信息 本 身 , 然 而 这 两 种 模型 的 局 
限 性 在 于 忽略 了 “信息 反馈 ”的 重要 环节 ,信息 交流 是 单 向 的 。 施 
拉 姆 模型 和 维 克 利 的 S-C-R 模型 强调 信息 交流 时 交互 的 、 双 向 的 ， 
更 符合 现实 中 人 类 信息 交流 情况 ( 孙 帅 ,2014)。 

“ 施 拉 姆 第 三 模型 ?是 美国 传播 学 家 威 尔 伯 。 施 拉 姆 所 提出 的 
大 众 信息 传播 与 交流 三 种 模式 的 第 三 种 ,1954 年 ,美国 传播 学 家 威 
尔 伯 ，。 施 拉 姆 对 申 农 - 维 弗 信息 交流 模式 加 以 修正 ,将 “反馈 ”引进 到 
信息 交流 与 信息 传递 中 ,将 原先 单一 的 信息 交流 模式 变 成 双向 互动 
的 过 程 。 按 照 施 拉 姆 的 观点 ,信息 交流 中 的 主体 之 间 是 相互 影响 的 ,各 
主体 都 必须 将 想 要 表达 的 意义 制 成 代码 ,传递 给 对 方 ,同时 须 将 对 方 传 
送 来 的 信息 译 码 作出 解释 以 产生 意义 ,具体 模型 如 图 4-3 所 示 。 


受众 1 
媒体 组 织 w 
信 源 [e] | | | XN | 的 
次 
受众 M 


反馈 


图 4-3 施 拉 姆 信息 交流 第 三 模型 
企业 网 络 与 情 中 的 信息 流转 结构 符合 信息 交流 的 基本 内 涵 。 
首先 对 信息 交流 绝对 变化 与 相对 静止 辩证 平衡 的 体现 ( 娄 策 
群 ,2007)。 企 业 网 络 与 情 具 有 高 度 的 动态 复杂 性 。 但 从 宏观 上 
看 ,企业 网 络 与 情 在 单一 时 间 节 点 、 空 间 节 点 的 表现 存在 相似 性 。 
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当 和 与 情事 件 发 生 后 ,企业 网 络 和 与 情 反 应 迅速 ,经 过 部 分 最 初 少量 的 
受众 将 信息 复制 传递 给 更 多 更 庞杂 的 受众 ,造成 与 情事 件 消息 的 
进一步 扩散 和 关注 度 迅 速 升温 ,这 是 最 典型 的 企业 网 络 与 情 的 传 
播 途径 ,而 信息 交流 也 同时 在 传播 者 与 接受 者 之 间 发 生 。 

其 次 对 强调 信息 交流 中 信息 主体 与 信息 本 身 整 体 性 的 体现 。 
企业 网 络 与 情 涉 及 多 个 参与 群体 ,各 参与 主体 与 突 发 事件 信息 交 
换 之 间 关 系 紧密 ,形成 一 个 系统 完整 的 整体 。 

最 后 是 强调 信息 交流 中 正面 价值 与 负面 价值 的 辩证 共存 。 企 
业 网 络 与 情 在 其 传播 过 程 中 ,多 方 参与 群体 往往 会 围绕 某 个 问题 
形成 多 方 态度 。 但 在 与 情事 件 中 ,由 于 各 主体 之 间 信 息 的 高 度 不 
对 称 , 极 易 形成 以 “谣言 "或 “流言 "为 代表 的 各 类 消极 与 情 。 因 此 ， 
在 与 情事 件 信息 交流 中 ,显著 存在 着 积极 与 情 与 消极 与 情 、 正 面 价 
值 与 负面 价值 的 共存 现象 。 

总 而 言 之 ,企业 网 络 与 情 信 息 交流 的 基本 特性 包括 ( 惠 志 斌 ， 
2012): 传播 过 程 复 杂 ,涉及 主体 多 元 ,信息 传播 以 双向 、 多 向 的 信 
息 交 流 互动 为 主 , 政 府 在 其 中 的 作用 被 进一步 削弱 ,网 络 与 情 复杂 
程度 空前 提升 等 。 信 息 交 流 的 主体 多 元 化 及 隐蔽 化 , 若 不 能 进行 
有 效 地 引导 和 控制 ,对 于 与 情事 件 的 有 效 处 理 将 留 下 隐患 。 因 此 ， 
加 强 对 关键 用 户 的 梳理 和 引导 ,对 于 企业 与 情 管理 部 分 做 好 突 发 
事件 的 网 络 与 情 管理 工作 至 关 重 要 。 

3. 基于 价值 累加 理论 的 与 情 处 置 管理 模型 

针对 群体 性 事件 的 发 生机 制 ,美国 社会 学 家 斯 梅 尔 塞 于 20 世 
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220 60 年 代 提 出 了 一 个 经 典 模 型 一 一 加 值 理 论 ”(value-added 
theory)( 曾 润 喜 和 徐 晓 林 ,2010) ,其 对 于 解释 群体 性 事件 的 发 生机 
制 仍 然 具 有 较为 成 熟 的 指导 意义 。 该 理论 认为 所 有 的 群体 性 行 
为 .社会 运动 甚至 革命 的 发 生 , 都 是 由 “结构 性 诱因 ”“ 结 构 性 紧 
IK” “一般 性 信念 ”“ 触 发 事件 ”“ 社 会 动员 组 织 ” 和 “社会 控制 失 
效 ” 六 个 因素 的 “加 值 ” 而 发 生 的 。 所 谓 “ 加 值 ”, 指 上 述 六 个 因素 的 
孤立 、 并 列 或 乱 序 出 现 并 不 足以 导致 群体 性 事件 的 发 生 , 但 当 其 按 
照 一 定 的 顺序 出 现时 ,它们 的 贡献 就 会 被 累加 放大 ,从 而 大 大 增加 
群体 性 事件 出 现 的 可 能 性 ,如 图 4-4 所 示 。 


结构 性 诱因 


结构 性 紧张 


- 般 性 信念 


触发 事件 


| 社会 动员 机 制 | 


| 社会 控制 力 下 降 | 


图 4-4 斯 梅 尔 塞 “加 值 理论 ”模型 


对 于 解释 企业 网 络 与 情 的 发 生机 制 , 斯 梅 尔 塞 的 “加 值 理论 ” 
同样 具有 借鉴 意义 。 公 共事 务 ( 产 品 . 服 务 ) 是 构成 网 络 与 情 的 核 
心 要 素 , 企 业 网 络 与 情 的 本 质 是 与 情事 件 所 引发 公共 事务 (产品 、 
服务 ) 及 民众 .企业 ` 政 府 等 利益 依 关 方 围绕 与 情事 件 形 成 的 现实 
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矛盾 在 网 络 中 的 反映 ( 林 敏 ,2013) 。 

首先 ,企业 网 络 与 情 的 社会 投射 性 ,完成 了 将 群体 性 事件 发 生 
机 制 应 用 于 企业 网 络 与 情事 件 发 生机 制 的 逻辑 跳跃 。 社 会 存在 决 
定 社会 意识 ,作为 社会 意识 的 重要 组 成 部 分 ( 吕 嘉 ,2001) ,网 络 与 
情 的 一 切 表现 都 植 根 于 现实 世界 中 的 社会 运动 ,不 仅 每 一 个 网 民 
都 拥有 现实 存在 的 社会 角色 ,网 络 中 的 每 一 个 话题 .事件 ,也 都 是 
社会 矛盾 的 真实 投射 。 

其 次 ,企业 网 络 与 情 的 系统 规律 性 ,保证 了 将 孤立 网 络 与 
情事 件 发 生机 理 适 用 于 网 络 僵 情 整 体 生 成 规律 的 逻辑 跳跃 。 
从 系统 论 的 角度 看 , “企业 网 络 奥 情 ” 是 一 个 典型 的 信息 生态 系 
统 ( 康 伟 ,2012)。 这 一 系统 兼 具 内 部 复杂 性 和 外 部 统一 性 的 双 
重 特性 。 

最 后 ,企业 网 络 熏 情 的 动态 开放 性 ,实现 了 将 企业 网 络 熏 情 发 
生 的 阶段 性 规律 适用 于 企业 网 络 与 情 演 化 全 过 程 的 逻辑 跳跃 。 企 
业 网 络 熏 情 中 存在 着 显著 的 起 伏 与 涨 落 现象 ,其 起 伏 与 涨 落 之 间 
也 存在 着 明显 的 因果 联系 ,而 企业 网 络 与 情 的 开放 性 ,允许 身 处 不 
同 地 域 的 、 持 有 不 同 观 点 的 网 民 共同 参与 到 某 一 事件 之 中 。 因 此 ， 
利用 “加 值 理论 ”对 企业 网 络 熏 情 微观 事件 发 生 规律 的 剖析 就 是 对 
企业 网 络 与 情 全 过 程 的 深刻 审视 。 
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4.4 本 章 小 结 


在 社会 网 络 大 数据 的 环境 下 ,合理 把 握 企业 与 情 , 可 以 为 企业 
提高 经 营 管理 绩效 .引导 与 情 传 播 提 供 基础 。 本 章 首先 研究 了 基 
于 模糊 推理 法 的 与 情 预 警 管理 模型 .基于 情感 倾向 分 析 法 的 与 情 
预警 管理 模型 .基于 Web 数据 挖掘 法 的 与 情 预警 管理 模型 以 及 基 
于 网 络 与 情 指 标 分 析 法 的 与 情 预 警 管理 模型 四 种 分 析 预 警 管理 模 
型 ,接着 讨论 了 基于 生命 周期 理论 的 与 情 处 置 管理 模型 .基于 施 拉 
姆 理论 的 与 情 处 置 管理 模型 以 及 基于 价值 累加 理论 的 与 情 处 置 管 
理 模 型 三 种 干预 处 置 管理 模型 。 


1. 简 述 基于 情感 倾向 分 析 法 的 与 情 预 警 管理 模型 内 容 。 

2. 简 述 基于 网 络 与 情 指标 分 析 法 的 与 情 预 警 管理 模型 内 容 。 
3. 举例 说 明基 于 施 拉 姆 理论 的 与 情 处 置 管理 模型 的 应 用 。 
4. 举例 说 明基 于 价值 累加 理论 的 与 情 处 置 管理 模型 的 应 用 。 


数据 平台 和 系统 结构 


本 章 学 习 目标 
。 了 解 互联 网 数据 获取 的 过 程 。 


。 熟悉 数据 分 析 系 统 的 主要 功能 模块 。 
5.1 数据 获取 


对 互联 网 的 新 闻 、 论 坛 .博客 等 信息 进行 定时 抓 取 , 抓 取 的 网 
页 由 URL 来 进行 标识 ,URL 的 处 理 的 步 又 为 : 

(1) 把 一 个 初始 的 种 子 URL 放 入 等 待 队列 。 

(2) 处 理 线程 从 等 待 队 列 中 取出 一 个 待 处 理 URL。 


(3) 处 理 线程 通过 Internet 抓 取 URL 所 代表 的 Web 页 ,调用 
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页 面 处 理 模块 处 理 页 面 。 

(4) 抽取 出 页 面 中 的 URL 放 和 等待 队 列 。 

(5) 把 处 理 成 功 的 URL 放 和 处理 成 功 队列 ,把 处 理 失败 的 
URL 放 入 处 理 失败 队列 。 

在 完成 一 次 抓 取 之 后 把 处 理 的 URL 放 入 处 理 成 功 队列 或 者 
处 理 失败 队列 ,然后 重新 到 URL 清单 中 取得 一 个 URL ,重复 上 面 
的 过 程 。 为 提高 获取 信息 的 效率 ,在 程序 中 的 仆 虫 为 多 线程 实现 ， 
多 线程 涉及 扑 虫 任务 分 配 的 问题 ,可 以 用 排队 论 中 的 结论 来 分 析 
形成 任务 分 配 算法 。 在 排队 论 , 有 典型 的 M/M/1 问题 和 M/M/c 
问题 ,其 中 ,第 1 个 M 代表 网 站 名 单 到 达 过 程 是 一 个 Poisson 过 
程 ; 第 2 个 M 代表 疏 虫 引擎 工作 时 间 负 指数 分 布 , 且 各 网 站 的 收 
割 时 间 相互 独立 (网 站 的 收割 时 间 由 以 下 几 个 方面 确定 : He | 
擎 出 去 的 带宽 、 路 经 的 互联 网 各 段 的 带宽 、 被 收割 网 站 进去 的 带 
宽 、 被 收割 页 面 的 长 度 、 同 时 访问 该 网 站 的 客户 数目 、 该 网 站 服务 
器 的 速度 等 ); 第 3 AME RKA c AERE., 

此 外 ,在 仆 虫 引擎 的 工作 中 ,我 们 假设 系统 的 容量 没有 限制 。 
由 于 网 站 名 单 是 存储 在 一 个 文件 中 的 ,使 用 时 导入 内 存 , 虽 然 文 件 
长 度 和 内 存 都 有 限制 ,但 是 ,多 几 千 、 几 万 个 网 站 名 对 计算 机 系统 
基本 没什么 影响 。 而 几 万 个 网 站 的 情况 也 不 常见 ,故我 们 这 条 假 
设 在 实践 中 基本 可 以 满足 ,没有 必要 担心 。 还 有 ,我 们 假设 顾客 源 
是 无 限 的 , 即 互 联网 上 的 网 站 名 的 数目 是 无 限 的 。 在 实践 中 ,这 条 
假设 也 不 难 满足 。 
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设 网 站 到 达 规 律 服从 Poisson 分 布 , 候 虫 引擎 对 网 站 的 收割 时 
间 服 从 负 指 数 分 布 。 设 网 站 的 平均 等 待 时 间 为 W.。 可 以 证 明 : 当 
c>>1 时 , 砚 .>Wi:。 也 就 是 说 ,采用 多 收割 线程 ,单个 收割 清单 的 办 
法 比 采 用 多 疏 虫 线程 ,每 个 朴 虫 引擎 各 自 有 一 个 收割 清单 的 办 法 
的 平均 等 待 时 间 要 少 得 多 。 所 以 ,多 线程 朴 虫 引擎 的 任务 分 配方 
法 ,就 是 采用 单 收割 清单 ,由 一 个 怜 虫 引擎 管理 员 顺 次 管理 的 方 
法 。 目 前 搜索 引擎 界 普遍 采用 的 这 种 方法 ,在 理论 上 是 具有 其 合 
理性 的 。 

基于 主题 怜 虫 的 设计 ,我们 构建 了 一 个 主题 个 虫 示范 平台 ,全 
称 为 金融 信息 疏 虫 服务 系统 ,系统 采用 Java 作为 开发 语言 ,该 软件 
具有 如 下 的 一 些 特点 : 

(1) 可 定期 从 互联 网 上 自动 获取 金融 相关 信息 ,不 需要 人 工 
的 过 多 干预 可 完成 。 

(2) 可 按照 新 闻 标 题 . 日 期 .股票 代码 和 新 闻 类 别 对 金融 信息 
进行 分 类 存储 。 

(3) 结合 中 文 分 词 和 语义 理解 可 以 很 好 地 保证 系统 搜集 金融 
信息 的 准确 率 。 

社会 网 络 大 数据 环境 下 企业 与 情 管理 模式 是 一 个 较 新 的 领 
域 。 我 们 运用 社会 网 络 计 算 、 计 算 机 智能 ,行为 科学 等 相关 理论 和 
方法 ,来 综合 地 分 析 研 究 社会 网 络 大 数据 环境 下 企业 与 情 管理 的 
优化 问题 。 
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5.2 数据 平台 


在 进行 企业 与 情 分 析 之 前 ,我 们 需要 完成 社会 网 络 数据 的 采 
集 和 存储 。 社 会 网 络 数据 的 采集 就 是 编写 抓 取 程序 ,从 社会 网 络 
上 采集 用 户 原 创 信息 或 转发 和 评论 的 信息 。 编 写 抓 取 程 序 时 , 通 
常 从 一 个 或 若干 个 网 页 的 初始 URL 开始 ,获得 初始 网 页 上 的 
URL 列表 ,在 抓 取 网 页 的 过 程 中 ,不 断 从 当前 页 面 上 抽取 新 的 
URL 放 入 待 抓 取 队 列 , 直 到 满足 系统 的 停止 条 件 。 经 过 初步 去 噪 
整理 后 ,计算 机 服务 器 会 将 源 网 站 名 、 网 址 及 其 发 布 时 间 存 入 本 地 
数据 库 。 

如 图 5-1 所 示 给 出 了 一 个 在 使 用 计算 机 服务 器 对 互联 网 信息 
与 情 数 据 的 收集 和 分 析 系 统 的 示意 图 ,相应 的 企业 与 情 管理 平台 ， 
如 图 5-2 所 示 。 

我 们 针对 社会 媒体 计算 的 跨 学 科 特 点 ,提出 了 社会 媒体 计算 
通用 实验 平台 框架 ,并 对 平台 的 各 个 层次 的 关键 核心 问题 进行 研 
究 。 社 会 媒体 计算 实验 平台 是 一 个 集成 数据 分 析 与 处 理 、 建 模 与 
仿真 .预测 与 监控 功能 为 一 体 的 通用 社会 媒体 计算 实验 平台 ,平台 
由 对 象 层 .数据 层 、 模 型 层 . 分 析 层 、 应 用 层 五 部 分 组 成 。 

(1) 对 象 层 : 对 象 层 是 社会 媒体 计算 的 研究 对 象 。 根 据 社 会 
媒体 计算 的 概念 ,从 对 象 视角 来 看 ,社会 媒体 计算 是 要 为 社会 进行 
计算 。 从 根本 上 来 讲 , 社 会 媒体 计算 要 为 现实 社会 服务 ,但 从 逻辑 
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图 5-1 数据 库 管理 界面 
上 来 讲 , 主 要 包括 信息 网 络 社会 和 复杂 经 济 社会 ,以 及 从 中 抽取 出 
来 的 人 工 社会 。 

(2) 数据 层 : 用 户 不 但 可 以 从 互联 网 获取 数据 信息 ,还 可 以 参 
与 互联 网 活动 ,用 户 留 下 了 大 量 社会 “足迹 ”, 对 这 些 社会 足迹 进行 
收集 与 集成 ,为 社会 媒体 计算 提供 基础 的 数据 信息 。 重 点 围绕 海 
量 多 源 数据 集成 .多 源 数据 融合 ,以 及 数据 质量 等 海量 数据 信息 处 

理 的 核心 关键 问题 进行 研究 。 
(3) 模型 层 : 对 系统 的 微观 建 模 是 社会 媒体 计算 的 前 提 和 基 
过 建 模 ,对 社会 媒体 计算 系统 中 所 涌现 的 宏观 现象 或 情景 
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图 5-2 社会 网 络 和 与 情 管理 平台 

进行 生动 .形象 地 展示 或 可 视 化 ,对 实验 参数 的 可 控 化 进行 不 同 的 
情景 再 现 , 并 按 研究 需求 进行 适时 调整 以 方便 决策 者 及 时 讨论 形 
成 有 效 的 决策 方案 。 

(4) 分 析 层 : 社会 系统 行为 是 由 个 体 相 互 交互 而 成 ,通过 对 个 
体 行 为 分 析 研究 系统 内 部 结构 是 社会 媒体 计算 的 理论 基础 。 分 析 
层 对 系统 结构 进行 微观 分 析 ,为 社会 媒体 计算 应 用 研究 提供 基础 。 

(5) 应 用 层 : 作为 社会 媒体 计算 平台 的 最 高 层 , 应 用 层 是 把 社 
会 媒体 计算 的 理论 与 方法 应 用 到 实际 的 社会 经济 系 统 中 ,为 政 
府 .企业 等 相关 部 门 决策 提供 依据 。 重 点 对 社会 网 络 传播 .社会 网 
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络 计算 、 知 识 管理 等 领域 进行 研究 。 


5.3 系统 结构 


社会 网 络 企业 与 情 建 模 和 预警 可 以 分 为 5 个 模块 ,如 图 5-3 所 
示 。 下 面 对 各 模块 分 别 简 要 说 明 。 

1. 模块 1: 与 情 大 数据 计算 机 基础 模块 

该 模块 主要 包括 基于 Scripy 的 大 规模 实时 数据 获取 平台 的 构 
建 技术 .基于 Apache Spark 的 与 情 大 数据 管理 系统 构建 技术 以 及 
相关 社会 网 络 图 像 处 理 框 架构 建 技术 。 该 模块 分 别 从 与 情 的 获 
取 、 存 储 管理 以 及 分 析 三 个 方面 对 社会 网 络 大 数据 环境 下 的 与 情 
管理 方法 所 需 的 计算 机 技术 进行 了 实现 ,是 理论 分 析 的 现行 技术 
基础 。 

2. 模块 2: 基于 与 情 传播 内 容 的 分 析 管 理 模块 

该 模块 主要 包括 含 短文 本 在 内 的 与 情 情感 倾向 分 析 技术 及 突 
发 事件 图 像 分 析 技 术 。 基 于 内 容 的 与 情 分 析 基 础 是 从 与 情 载体 本 
身 出 发 ,对 与 情 所 含有 的 静态 信息 进行 分 析 , 通 过 该 管理 技术 , 实 
现 对 于 社会 网 络 的 静态 监控 与 管理 的 目的 。 

3. 模块 3: 基于 和 与 情 传播 结构 的 分 析 管 理 模块 

该 模块 主要 包括 权威 用 户 模 型 分 析 理 论 、 串 并 联 关键 路 径 分 
析 理 论 ,用户 群 体 行为 模型 。 基 于 与 情 传 播 结构 的 分 析 管 理 模块 
是 从 与 情 的 动态 传播 角度 进行 出 发 ,对 与 情 传播 的 网 络 结构 特征 
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进行 分 析 , 构 建 与 情 传 播 的 动态 分 析 理论 。 基 于 结构 的 与 情 分 析 
理论 模块 是 社会 网 络 大 数据 环境 下 与 情 分 析 的 必要 理论 之 一 。 
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4. 模块 4: 社会 网 络 大 数据 环境 下 的 与 情 管理 理论 模块 

该 模块 主要 包含 口碑 媒体 主导 网 络 关键 路 径 模型 .与 情 用 户 
兴趣 社区 发 现 模 型 .社会 网 络 冶 模 型 .与 情 情感 倾向 性 与 企业 股市 
关联 模型 .企业 全 新 突 发 事件 预警 模型 等 。 该 模块 是 对 模块 3 中 
模块 的 多 角度 总 结 ,是 在 模块 3 的 基础 上 派生 出 当前 熏 情 管理 方 
法 所 需要 的 基本 理论 ,为 社会 网 络 大 数据 环境 下 的 与 情 管理 方法 
的 研究 竟 定 基础 。 

5. 模块 5: 社会 网 络 大 数据 环境 下 的 与 情 管理 方法 模块 

该 模块 是 在 模块 4 的 基础 上 ,研究 用 户 群 体 行为 对 企业 业绩 
影响 的 5 个 企业 与 情 问 题 ,包括 C2B 营销 方法 、 企 业 的 社会 网 络 个 
性 化 推荐 方法 .企业 的 开放 式 信 用 管理 方法 .企业 与 情 管理 方法 与 
交互 影响 方法 、 基 于 服务 挽回 等 与 情 管理 措施 等 优化 管理 方法 。 
通过 模块 4 中 的 基础 理论 的 不 同 组 合 ,来 灵活 处 理 模块 5 中 的 不 
同 问题 ,使 得 研究 系统 化 。 换 名 话说 ,通过 对 模块 4 中 社会 网 络 大 
数据 环境 下 与 情 管理 基本 理论 的 研究 ,并 进行 丰富 的 组 合 ,从 而 来 
解决 社会 网 络 大 数据 环境 下 企业 与 情 管理 所 遇 到 的 大 多 数 问题 。 


5.4 本 章 小 结 
要 进行 企业 的 与 情 分 析 , 首 先 要 完成 社会 网 络 数 据 的 采集 和 


存储 。 社 会 网 络 数据 的 采集 就 是 从 社会 网 络 上 采集 用 户 原创 信息 
或 转发 和 评论 的 信息 ,经 过 初步 去 噪 整理 后 ,计算 机 服务 器 会 将 源 
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网 站 名 、 网 址 及 其 发 布 时 间 存 人 本 地 数据 库 。 社 会 网 络 企业 与 情 
分 析 系 统 可 以 分 为 五 个 模块 ,分 别 是 与 情 大 数据 计算 机 基础 模块 、 
基于 与 情 传播 内 容 的 分 析 管 理 模块 .基于 与 情 传播 结构 的 分 析 管 
理 模 块 .社会 网 络 大 数据 环境 下 的 与 情 管理 理论 模块 及 社会 网 络 
大 数据 环境 下 的 与 情 管理 方法 模块 。 


1. 简 述 互联 网 数据 获取 的 过 程 。 


2. 举例 说 明 社 会 网 络 大 数据 环境 下 的 与 情 管理 方法 模块 的 
主要 内 容 。 
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本 章 学 习 目 标 
。 熟悉 基于 文本 内 容 的 企业 网 络 与 情 管理 的 技术 。 
。 熟悉 基于 图 像 内 容 的 企业 网 络 与 情 管理 的 技术 。 


6.1 基于 文本 内 容 的 企业 网 络 熏 情 管理 的 技术 


1. 文本 情感 分 析 算法 

随 着 网 络 以 及 新 社交 应 用 的 快速 发 展 ,大 量 网 络 用 户 每 天 都 
会 发 布 并 传播 高 达 上 亿 的 信息 。 这 些 海量 的 文本 信息 中 ,有 很 大 
一 部 分 是 表达 用 户 观 点 倾向 和 情感 信息 ,这 些 情感 文本 信息 是 非 


常 宝贵 的 意见 资源 ,包含 着 人 们 对 社会 各 种 现象 的 不 同 观点 和 立 
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场 。 情 感 分 类 将 评论 自动 分 类 为 正面 或 负面 的 意见 ,目的 是 挖掘 
消费 者 对 某 种 产品 或 服务 的 评论 。 不 仅 强 烈 地 影响 消费 者 的 决策 
过 程 ,对 于 管理 者 考虑 品牌 建设 ,产品 开发 和 质量 保证 也 有 重要 的 

意义 。 

目前 情感 分 类 的 实证 研究 不 仅 突破 了 行业 限制 .产品 限制 .地 
域 限制 也 突破 了 语言 的 限制 ,其 被 运用 在 多 处 ,例如 旅游 业 .餐饮 
业 .影视 的 评价 等 等 ,不 仅仅 局 限 在 英文 的 评论 中 ,有 学 者 也 提出 
了 中 文 的 情感 分 类 算法 , 叶 强 等 (2007) 也 对 粤语 的 情感 分 类 进 
了 实证 研究 。 

利用 计算 机 智能 技术 ,包括 自然 语言 处 理 、 机 器 学 习 、 文 本 控 
气 等 ( 梁 循 ,2006; He 和 Zhou,2011; Neviarouskaya 等 ,2011) ,我 
们 可 以 将 各 种 人 类 情感 ,意见 或 观点 由 社会 网 络 的 机 构 化 文本 信 
息 转化 成 定量 的 数值 数据 信息 。 情 感 倾向 性 分 析 比 较 系统 的 研究 
工作 开始 于 基于 监督 学 习 方法 对 电影 评论 文本 进行 情感 倾向 性 分 
类 和 基于 无 监督 学 习 对 文本 情感 倾向 性 分 类 的 研究 ( 王 超 等 ， 
2009)。 学 者 们 分 别 使 用 朴素 贝 叶 斯 、 最 大 焙 和 支持 向 量 机 (Liang 
等 ,2008; Liang,2010; Liang 和 Ni,2011) 技 术 将 文本 情感 倾向 性 
分 为 负 向 和 正 向 两 类 。 近 几 年 来 ,文本 情感 倾向 性 分 析 ( 也 称 文本 
情感 计算 ,文本 褒贬 性 分 析 ) 已 经 成 为 国内 外 计算 机 科学 界 的 一 人 
热点 研究 方向 。 目 前 ,情感 倾向 性 分 析 已 经 被 运用 于 英文 .中 文 等 
许多 种 文字 ,并 获得 了 很 大 程度 的 发 展 ,特别 是 在 在 线 评论 的 情感 
倾向 性 分 析 上 获得 了 很 大 的 进步 ,基于 在 线 评论 文本 的 情感 倾向 
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性 分 析 的 准确 率 最 高 能 达到 90% 以 上 ( 杨 源 等 ,2012)。 

为 了 找 出 评论 的 情感 倾向 性 ,我 们 需要 借助 的 智能 手段 包括 
自然 语言 处 理 、 机 器 学 习 、 文 本 挖掘 等 ( 梁 循 ,2006; He 和 Zhou, 
2011; Neviarouskaya 等 ,2011) 。 

显然 , 当 和 与 情 的 情感 倾向 性 值 为 正 时 ,表示 对 企业 有 利 , 反 之 
为 不 利 。 因 此 ,情感 倾向 性 值 可 以 认为 是 一 个 企业 与 情 的 基于 社 
会 网 络 的 基本 测度 ,也 就 是 说 通过 文本 挖掘 与 自然 语言 处 理 技术 ， 
我 们 可 以 得 到 企业 在 社会 网 络 大 数据 环境 下 情感 倾向 的 定量 式 结 
果 。 在 本 书 中 ,我们 定义 情感 倾向 的 取 值 范围 为 [0,1], 贬 义 议论 
的 取 值 范围 为 [一 1,0], 于 是 ,情感 倾向 的 取 值 范围 为 [一 1,1]。 相 
应 地 ,企业 社会 网 络 与 情 测度 值 的 取 值 范 围 也 为 [一 1,1]。 

在 本 研究 中 ,我 们 可 以 挖掘 到 的 评论 信息 按照 标题 存储 为 不 
同 的 信息 文档 。 为 了 使 用 情感 倾向 性 ,需要 计算 单个 信息 文档 的 
情感 倾向 性 值 。 我 们 利用 中 科 院 的 分 词 工 具 ICTCLAS 对 每 个 信 
息 文 档 进行 分 词 处 理 , 将 汉语 句子 分 解 成 一 个 个 有 意义 的 词汇 
{wl.,w2,w3..wn) Hn Ai CB. (HY Hownet 词典 ,我 
们 得 到 了 正面 词典 负面 词典 、 和 否定 词典 以 及 另外 6 个 修改 词典 的 
WNE RENZ IR BEME vi, 其 中 正面 词典 中 有 4566 个 词汇 ,负面 词典 有 
4370 个 词汇 。 除 了 正面 词典 和 负面 词典 外 ,其 他 7 个 词典 都 是 用 
来 修饰 正面 和 负面 词汇 用 的 。 例 如 ,如 果 和 否定 词 出 现 的 正面 或 负 
面 词 前 的 话 , 则 对 其 取 反 ,vi 二 (一 1) * vi。 而 修饰 词典 根据 他 们 的 
修饰 程度 级 别 分 别 赋 予 一 定 的 强度 。 接 下 去 ,判断 wi 前 面 的 两 个 
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词汇 precedel 和 precede2 和 后 面 的 两 个 词汇 post] 和 post2 是 否 
在 修饰 词典 中 ,如 果 出 现 , 则 将 vi 乘 上 修饰 词 的 权重 。 整 个 信息 
文档 的 情感 倾向 性 值 就 是 所 有 词语 的 vi 之 和 ,从 而 得 到 用 户 评论 
的 情感 倾向 性 W。 

情感 分 类 算法 可 以 分 成 几 大 类 。 朴 素 贝 叶 斯 算法 ,支持 向 量 
机 算法 和 基于 字符 的 n-gram 模型 这 三 种 标准 的 监督 机 器 学 习 方 
法 都 被 证 明 能 够 进行 很 好 的 情感 分 类 。 但 在 不 同 算法 的 精确 度 
上 ,在 不 同 的 实证 环境 下 略 有 区 别 。 

Ye 等 (2009) 在 研究 世界 七 个 主要 旅游 目的 地 的 网 上 评论 时 ， 
采用 朴素 贝 叶 斯 算法 ,支持 向 量 机 算法 和 基于 字符 的 n-gram 模型 
三 个 监督 的 机 器 学 习 算法 发 现 ,训练 有 素 的 机 器 学 习 算 法 可 以 进 
行 很 好 的 分 类 。 虽 然 最 近 的 一 些 研究 已 经 开始 进行 旅游 博客 的 内 
容 分 析 ,但 是 复杂 的 网 络 挖掘 技术 仍 需要 融入 旅游 博客 的 分 析 中 。 
这 项 研究 填补 了 旅游 评论 中 的 空白 ,进行 了 基于 旅行 目的 地 的 在 
线 评论 的 情感 态度 的 自动 分 类 。 

Zhang 等 (2011) 在 研究 互联 网 上 餐厅 的 粤语 评论 的 情感 分 类 
时 ,将 标准 的 机 器 学 习 技术 朴素 贝 叶 斯 和 支持 向 量 机 运用 在 网 上 
粤语 写 的 餐厅 评论 当中 ,以 自动 分 类 用 户 的 评论 是 正面 的 还 是 负 
面 的 。 也 对 分 类 性 能 的 影响 进行 了 讨论 。 其 发 现 , 分 类 的 精度 取 
决 于 分 类 模型 和 特征 选择 之 间 的 相互 作用 。 朴 素 贝 叶 斯 分 类 器 的 
精度 与 支持 向 量 机 相当 甚至 更 好 。 双 字 词 组 比 单字 和 三 字 词 组 能 
够 更 好 地 捕捉 粤语 情感 倾向 。 
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除了 将 标准 的 监督 机 器 学 习 算法 运用 在 实证 的 研究 当中 , 国 
内 的 学 者 还 根据 英文 的 语义 指向 算法 进行 了 改进 ,提出 了 适合 中 
文 情感 分 类 的 算法 。 

Ye 等 (2006) 在 对 电影 的 中 文 评论 情感 分 类 研究 中 ,就 着 重 于 
研究 中 文 评论 的 分 类 算法 。 鉴 于 中 文 与 英文 的 语言 差异 ,英文 情 
感 分 类 的 语义 指向 算法 不 能 直接 适用 于 中 文 的 情感 分 类 中 ,因此 
基于 对 中 国电 影评 论 的 情感 分 类 研究 来 改进 语义 指向 算法 以 此 探 
索 中 文 的 情感 分 类 方法 。 根 据 这 个 结果 发 现 ,中 文 评论 所 改进 的 
语义 指向 算法 的 性 能 与 先前 的 英文 评论 分 类 研究 相 比 ,是 可 以 接 
受 的 。 数 据 集 的 测试 还 表明 ,参考 字 对 的 选择 和 语义 指向 的 临界 
值 对 评论 分 类 的 语义 指向 有 着 重要 的 影响 。 分 词 方法 被 引入 情感 
分 类 过 程 中 ,是 中 文 和 英语 在 情感 分 类 中 的 主要 区 别 之 一 。 这 项 
研究 还 介绍 了 最 佳 参考 字 对 的 选择 和 最 佳 语义 指向 的 临界 值 的 选 
择 。 研 究 过 程 表 明 , 当 语义 指向 方法 应 用 于 不 同 领域 ,不 同 产品 的 
情感 分 类 ,参考 字 对 和 临界 值 的 选择 是 不 同 的 。 

在 进行 实证 研究 时 ,无疑 会 受到 领域 以 及 产品 或 者 服务 类 别 
的 限制 。 例 如 在 研究 世界 七 个 主要 旅游 目的 地 时 ,就 应 当 扩大 目 
标 数 ,虽然 这 项 研究 分 析 了 西方 国家 热门 的 目的 地 ,但 在 其 他 目的 
地 所 提出 的 分 类 方法 的 适用 性 仍然 不 明 , 因 此 值得 今后 的 深入 研 
究 。 由 于 消费 者 会 经 常 改变 他 们 对 于 目的 地 的 看 法 和 感知 ,因此 
还 可 以 比较 不 同时 期 的 分 类 结果 做 更 为 深入 的 纵向 研究 。 

在 对 中 文 影评 的 改进 算法 的 研究 中 ,在 提取 短语 时 ,只 是 简单 
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地 借鉴 了 来 自 英语 评论 当中 的 两 词 词组 的 模式 。 但 英语 和 中 文 的 
语言 结构 有 许多 的 不 同 ,如何 能 在 中 文 评论 挖掘 的 过 程 中 ,找到 更 
为 精准 的 文字 ,将 是 进一步 研究 的 突破 口 , 也 将 大 大 地 提高 情感 分 
类 的 准确 度 。 

此 外 ,应 该 以 中 文 为 导向 的 情感 分 类 算法 做 进一步 的 优化 和 
推广 ,兼顾 到 不 同 地 域 和 不 同方 言 的 适用 性 ,尤其 对 中 文 的 分 词 方 
法 以 及 语言 表述 的 准确 性 上 带 来 更 大 的 突破 。 

网 络 评论 中 也 存在 许多 垃圾 信息 。 这 些 信息 的 存在 无 疑 会 干 
扰 基 于 情感 分 类 的 相关 研究 ,应当 注 意 对 于 垃圾 信息 的 过 滤 。 网 
络 评论 的 情感 也 较为 丰富 ,可 以 进一步 延伸 对 于 情绪 强 弱 的 判别 ， 
不 应 只 局 限于 正 、 负 两 个 方面 。 

在 社会 网 络 中 ,文本 信息 有 其 特殊 性 ,就 是 都 不 太 长 ,有 的 其 
至 只 有 几 个 字 。 所 以 ,有 些 学 者 提出 了 短文 本 的 问题 ,并 提出 了 一 
系列 处 理 方法 ( 梁 循 ,2012; 詹 志 坚 ,2014)。 

2. 短文 本 自然 语言 处 理 技术 

短文 本 是 相对 于 长 文本 而 言 的 , 它 是 指 那些 文本 长 度 小 于 160 
个 字符 的 文本 ,一 般 以 微 博 、 手 机 短信 、 网 页 评论 以 及 聊天 等 形式 
存在 。 近 年 来 , 随 着 移动 物 联网 及 各 类 新 兴 社 交 网 络 的 飞速 发 展 ， 
短文 本 成 为 人 们 获取 信息 的 重要 来 源 。 短 文本 的 研究 已 成 为 了 目 
前 的 一 个 研究 热点 。 短 文本 自然 语言 与 情 分 析 是 社会 网 络 与 情 分 
析 的 核心 科学 问题 ,其 研究 内 容 涉 及 短文 本 建 模 、 相 似 度 计算 、 话 
题 挖掘 、 情 感 分 析 等 。 
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1) 短文 本 建 模 

短文 本 建 模 是 对 短文 本 与 情 分 析 计 算 的 基础 。 目 前 ,对 短文 
本 的 表示 方法 主要 沿用 原 有 传统 的 文本 建 模 方法 ,主要 包括 : F 
符 表示 法 和 词 袋 表 示 法 等 。 字 符 表示 法 是 把 短文 本 视 为 连续 的 字 
符 并 以 字符 作为 基本 的 处 理 单 元 。 词 袋 表 示 法 把 短文 本 看 作 一 组 
特征 词 的 集合 ,并 通过 特征 词 及 权重 表示 为 多 维 空间 中 的 一 个 特 
征 向 量 来 表示 短文 本 。 词 袋 表 示 法 是 最 常用 的 短文 本 表示 方法 ， 
在 传统 的 向 量 空间 模型 .概率 模型 中 都 大 量 采 用 了 词 袋 表 示 法 来 
对 短文 本 进行 建 模 。 

2) 短文 本 相似 度 计 算 

短文 本 相似 度 计 算是 短文 本 与 情 分 析 的 关键 技术 。 通 过 对 短 
文本 的 相似 度 计算 并 进行 分 类 整理 ,进而 可 实现 短文 本 主题 提取 。 
短文 本 相似 度 是 一 个 重要 且 应 用 广泛 的 概念 ,但 目前 尚未 对 短文 
本 的 相似 度 有 令 人 信服 的 准确 定义 。 现 阶段 ,使 用 较为 广泛 的 短 
文本 相似 度 定义 为 


logP(common(A.B)) 
logP(distinction(A , B) ) 


其 中 common(A. B) fil distinction(A,B) 分 别 表示 短文 本 A 和 B 
的 共同 部 分 和 不 同 部 分 (Lin ,1998) 。 

基于 语义 词典 的 短文 本 相似 度 计 算 方法 (Meng 等 ,2013) 是 目 
前 运用 最 广泛 且 有 效 的 方法 。WordNet 是 目前 使 用 最 为 广泛 的 语 
义 词典 。 基 于 大 规模 语料库 统计 的 短文 本 相似 度 计算 方法 也 是 近 


sim(A,B) 
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年 来 研究 较 多 的 方法 ,其 主流 有 LSA (latent semantic analysis) 和 
HAL(hyperspace analogues to language). LSA 将 词 和 短文 本 映 
射 到 语义 空间 ,通过 减少 向 量 空间 维度 ,减少 计算 量 ,提高 检索 精 
度 。HAL 通过 在 大 规模 语料库 中 寻找 词 共 现 信息 获取 次 或 文档 
的 语义 信息 。 在 短文 本 相似 度 计算 中 ,LSA BE HAL 有 更 好 的 效 
果 (Schutze,1998)。 基 于 描述 特征 的 短文 本 相似 度 计 算 方 法 预先 
维护 一 个 特征 库 , 将 预 处 理 后 的 短文 本 映射 到 特征 库 中 ,得 到 短文 
本 对 应 的 特征 向 量 ,从 而 将 短文 本 的 相似 度 计算 转换 为 特征 向 量 
间 的 相似 度 计算 。 基 于 互联 网 资源 的 方法 (Sahami 等 ,2006) 通 过 
互联 网 丰富 的 资源 ,对 信息 量 少 内 容 简 短 的 短文 本 进行 扩充 ,使 待 
计算 相似 度 的 短文 本 之 间 包 含 相同 词 项 或 相似 的 可 扩展 词语 。 岳 
云 飞 等 (2014) 依 据 微 博 短 文本 之 间 的 关联 关系 扩充 微 博 短文 本 特 
征 信息 ,并 将 扩充 后 的 特征 词 集 采用 HowNet2000 映射 到 概念 集 ， 
最 后 采用 Jaccard 相似 度 系数 计算 短文 本 间 的 相似 度 。 

词语 相似 度 计 算是 短文 本 相似 度 计算 的 基础 。 结 合 企业 与 情 
分 析 , 学 者 们 提出 了 下 面 的 中 文 词语 相似 度 计算 方法 ， 


ge ages wise = TIC, (LSOa,s) 
BaikeCatSim(A , B) 之 depth(A) + depth(B) 


其 中 ,m 表示 词 条 A MB 之 间 的 最 短路 径 条 数 ,IIC(W) 表 示 节 点 
W 的 信息 内 容 ,IIC(LSO4,s) 表 示 词 条 A AB 最 近 公 共 自 节点 的 
信息 内 容 。IICCW) 的 计算 公式 如 下 ， 


log | hypo(W) +1 | 
log | ALL | 


IIC(W) = 1 
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其 中 hypo(W) 表 示 节 点 W 下 所 有 节点 的 数量 ,ALL 表示 百度 百 
科 所 有 节点 数量 。 

3) 短文 本 话题 挖掘 

短文 本 话题 挖掘 是 指 通 过 对 微 博 、 在 线 评论 等 短文 本 进行 基 
于 内 容 ( 语 义 ) 的 聚 类 分 析 , 挖 掘 各 种 热点 话题 及 其 观点 和 立场 。 
通过 及 时 掌握 人 们 对 各 种 热点 话题 的 观点 和 立场 及 对 话题 的 发 展 
进行 分 析 , 对 国家 、 社 会 都 具有 重要 意义 ,引起 了 学 术 界 的 高 度 重 
视 , 它 是 短文 本 与 情 分 析 的 重要 目标 之 一 。 

目前 ,针对 短文 本 话题 挖掘 方法 主要 有 : 

(1) 文本 聚 类 法 。 采 用 文本 聚 类 的 方式 进行 话题 挖掘 。 如 路 
RE (2010) All K-means 和 层次 聚 类 两 层 混 合 聚 类 算法 ,利用 隐 
主体 模型 挖掘 的 热点 新 闻 话 题 。 

(2) 传统 模型 的 改进 。 针 对 短文 本 的 特征 ,改进 传统 话题 模 
型 潜 狄 利克 雷 分 配 (latent Dirichlet Allocation,LDA) 模 型 ,利用 所 
建立 的 新 的 话题 模型 来 抽取 短文 本 话题 。 如 Ramage 等 (2010) 建 
立 了 一 种 半 监 督学 习 模型 L-LDA 满足 用 户 在 Twitter 上 个 性 化 的 
信息 需求 。 

(3) 通过 分 析 短 文本 的 内 容 , 自动 产生 短文 本 内 容 的 摘要 提 
取 。Inouye 等 (2010) 提 出 一 种 用 多 条 句子 来 描述 微 博 热门 话题 的 
方法 ,克服 了 一 条 句子 对 话题 描述 不 完整 的 缺陷 。Sharifi(2010) 
实现 了 对 微 博 话题 的 描述 ,使 用 户 可 以 实时 并 且 准 确 地 得 到 微 博 
中 的 热门 话题 。 
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4) 短文 本 情感 分 析 

短文 本 情感 分 析 主 要 是 指 从 短文 本 信息 中 识别 主观 信息 , 挖 
掘 用 户 对 产品 .新 闻 、 热 点 事件 等 评论 信息 所 持 有 的 观点 和 态度 ， 
这 也 是 与 情 分 析 的 重要 目标 之 一 。 短 文本 尽管 信息 含量 少 ,但 其 
情感 信息 丰富 。 短 评论 所 缺失 的 信息 一 般 是 产品 的 主题 和 特征 信 
息 。 短 文本 内 容 越 小 ,其 情感 分 析 效 果 越 好 。 这 是 因为 较 长 的 文 
本 其 所 包含 的 不 利于 情感 分 析 得 噪音 越 多 。 早 期 对 于 短文 本 的 研 
究 大 多 集中 在 主题 挖掘 上 ,而 对 于 情感 极 性 分 析 较 少 。 微 博 等 网 
络 中 的 文本 不 仅 短 小 , 且 数 量 极 其 众多 ,同时 包含 丰富 的 极 性 词 ， 
极其 利于 情感 分 析 。 

国外 对 短文 本 的 研究 相对 较 早 ,Read(2005) 详 细 论 证 了 表情 
符号 对 情感 分 类 的 作用 。Go 等 (2009) 采 用 无 监督 指导 的 朴素 贝 
叶 斯 .最 大 烂 和 支持 向 量 机 三 种 机 器 学 习 方 法 ,使 情感 倾向 判别 的 
准确 率 超 过 了 80%. Pak 等 (2010) 组 织 标注 了 Twitter 微 博文 本 
情感 极 性 数据 集 ,实现 了 基于 朴素 贝 叶 斯 \ 支 持 向 量 机 和 条 件 随机 
场 的 情感 分 类 器 。 由 于 微 博 是 近 几 年 才 在 国内 发 展 起 来 的 新 型 社 
交 媒 体 平台 ,所 以 国内 方面 针对 微 博 等 短文 本 的 情感 分 析 研 究 还 相 
对 较 少 。 谢 丽 星 等 (2012) 对 基于 表情 符号 的 规则 方法 .基于 情感 词 
典 的 规则 方法 和 基于 SVM 的 层次 结构 的 多 策略 方法 进行 了 深入 的 
研究 ,结果 表明 基于 SVM 的 层次 结构 多 策略 方法 效果 最 好 。 

综 上 ,短文 本 由 于 特征 向 量 的 维度 过 少 , 在 整体 特征 矩阵 中 不 
可 避免 地 出 现 极度 稀 玻 的 问题 , 即 每 个 短文 本 样本 中 ,只 有 极 少数 
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的 维 数 上 是 有 取 值 的 。 由 此 ,给 短文 本 的 处 理 带 来 了 极 大 的 不 确 
定性 和 困难 。 解 决 这 种 稀 朴 性 主要 从 两 个 方面 人 手 : 一 是 通过 降 
低 整 体 的 特征 向 量 维度 来 避免 稀疏 性 问题 。 信 息 增 益 方 法 `CHI 
方法 以 及 互信 息 方 法 ,其 他 的 方法 有 潜在 语义 索引 (Chen 等 ， 
2003) 方 法 、 基 于 聚 类 重心 数据 降 维 (Kim 等 ,2005) 的 方法 等 。 这 
些 降 维 的 方法 或 者 需要 计算 大 矩阵 的 特征 值 和 特征 向 量 ,或 者 需 
要 对 数据 进行 频繁 的 聚 类 迭代 分 析 , 其 计算 复杂 度 和 计算 时 间 都 
比较 大 。 二 是 通过 各 种 方法 扩展 短文 本 的 信息 ,从 而 提高 短文 本 
自身 的 向 量 维度 。 短 文本 存在 着 数据 稀 朴 性 及 上 下 文 缺 失 的 情 
UL ,需要 用 某 种 方法 来 补充 和 扩展 信息 。 如 Wang 等 (2007) 利 用 
WR-kmeans 聚 类 方法 综合 相关 手机 短 消息 解决 相似 短文 本 发 现 
问题 ; Fan 等 (2010) 利 用 特征 扩展 和 控制 模型 ,有 效 提高 短文 本 的 
分 类 精度 ; Adams 等 (2008) 利 用 WordNet 解决 即时 聊天 信息 话 
题 检测 与 抽取 问题 。 

进一步 ,有 效 地 监控 这 些 在 线 文本 可 能 也 是 非常 重要 的 。 有 
时 候 在 线 文本 中 负面 的 “流言 ?> 可 能 对 企业 造成 后 果 严 重 的 问题 ， 
及 时 发 现 并 加 入 正面 的 帖子 ,就 可 以 有 效 地 防止 问题 的 发 生 。 近 
年 来 ,与 情 监控 成 为 国家 管理 互联 网 的 一 种 必要 技术 (Liang 等 ， 
2012)。 所 以 ,上 述 应 用 相当 于 “企业 级 ”的 与 情 分 析 监 控 。 

3. 应 用 : 基于 微 博 的 文本 内 容 的 突 发 事件 及 全 新 突 发 事件 预 
警方 法 一 -用户 在 紧急 状态 下 的 行为 分 析 

对 常见 突 发 事件 ,人 们 已 经 有 了 比较 成 熟 的 预警 技术 。 对 全 


第 6 章 企业 网 络 奥 情 管理 的 计算 机 技术 


新 突 发 事件 的 技术 ,也 有 了 一 些 进展 。 例 如 ,在 梁 循 和 申 华 (2012) 
专利 中 ,互联 网 上 的 新 词 可 以 进行 甄别 ,并 判断 是 否 是 突 发 事件 。 

假设 我 们 对 企业 A 的 与 情 的 全 新 突 发 事件 进行 监控 。 

首先 ,我 们 利用 微 博 开放 平台 , 抓 取 微 博信 息 。 在 此 基础 上 ， 
实现 对 用 户 所 关注 对 象 微 博 发 布 信 息 的 提取 ,并 将 提取 的 语 片 级 
微 博 进 行 分 词 。 其 次 ,根据 微 博 长 度 按照 分 类 规则 循环 累计 式 的 
找 出 每 一 语 片 级 微 博 中 的 关键 词 ,将 其 放 入 “候选 关键 词 ”队列 ,将 
得 到 的 候选 关键 词 分 别 与 (企业 A 突 发 事件 字典 ?比较 , 若 无 任何 
一 个 关键 词 在 (企业 A 突 发 事件 字典 ) 中 , 则 放弃 本 微 博 ; 若 微 博 
关键 词 存 在 于 《企业 A 突 发 事件 字典 ) 中 , 则 将 本 微 博 中 不 包含 于 
《企业 A 突 发 事件 字典 ) 的 候选 关键 词 列 入 “全 新 突 发 事件 候选 关 
键 词 " 队 列 。 依 次 循环 的 将 设 定 时 间 内 的 所 有 微 博 进行 分 析 提 取 。 
最 后 按照 关键 词 出 现 的 频率 排序 ,并 对 前 十 个 “全 新 突 发 事件 关键 
词 ” 进 行 关键 词 共 现 分 析 , 最 终 可 视 化 展示 出 所 得 结果 。 

具体 步骤 是 : 

步骤 1 ,首先 利用 微 博 开放 平台 和 API 接口 技术 。 根 据 所 需 ， 
指定 将 要 抓 取 的 用 户 类 别 和 微 博 发 布 时 间 段 ,利用 Java 语言 编写 
的 抓 取 程序 ,实现 指定 微 博 的 抓 取 。 并 存储 进入 数据 库 。 

步骤 2, 对 该 条 微 博 进行 分 词 。 

步骤 3 ,根据 微 博 总 字数 长 度 不 同 选择 提取 关键 词 。 

步骤 4, 将 本 条 微 博 “ 候 选 关 键 词 ”队列 中 的 词语 与 (企业 A R 
发 事件 字典 》 进 行 比较 。 
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结果 4.1: 如 果 ”* 候 选 关键 词 ?队列 中 ,无 任何 一 个 词语 在 《 企 
业 A 突 发 事件 字典 ) 中 , 则 放弃 本 条 微 博 ,进行 下 一 条 分 析 。 

结果 4.2: 如 果 ”* 候 选 关 键 词 ?队列 中 ,出 现 了 《企业 A RRE 
件 字典 ?中 的 词语 , 则 将 不 在 (企业 A 突 发 事件 字典 》 中 的 其 余 关键 
词 列 入 “全 新 突 发 事件 候选 关键 词 ” 队 列 中 ,并 以 向 量 组 形式 存储 
在 数据 库 中 。 

步骤 5, 处理 完 指定 的 所 有 用 户 在 预 设 时 间 内 的 所 有 微 博 后 ， 
提取 出 “全 新 突 发 事件 候选 关键 词 向 量 组 。 并 对 每 一 个 向 量 中 第 
一 个 元 素 , 即 “候选 关键 词 出 现 的 频率 进行 统计 ,按照 统计 结果 由 
大 到 小 的 词 频 顺序 进行 排列 ,提取 出 词语 出 现 频率 最 高 的 前 10 类 
“全 新 突 发 事件 关键 词 "。 至 此 得 到 所 需 的 全 新 突 发 事件 的 关 
键 词 。 

步骤 6, 得 到 的 10 类 “全 新 突 发 事件 关键 词 与 向 量 组 中 第 二 
个 元 素 及 以 后 的 所 有 词语 进行 关键 词 共 现 分 析 。 并 通过 共 现 分 析 
得 到 全 新 关键 词语 突 发 事件 之 间 的 内 在 联系 。 

4. 社会 网 络 推 荐 技术 

社会 网 络 中 推荐 的 基本 思想 是 ,具有 相似 兴趣 爱好 用 户 会 对 
同一 商品 表现 出 相似 的 偏好 。 根 据 此 思想 ,要 对 用 户 进行 推荐 , 先 
要 确定 其 邻居 (相似 ) 用 户 , 然 后 再 综述 其 邻居 的 偏好 。 所 以 ,对 某 
一 用 户 的 推荐 ,实际 是 取决 于 其 他 用 户 的 偏好 ,用 户 与 用 户 之 间 形 
成 一 种 自助 式 .协同 式 的 社会 推荐 模式 。 

传统 推荐 方法 大 多 是 基于 内 容 的 ,首先 需要 对 用 户 和 候选 推 
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荐 对 象 分 别 进行 建 模 表示 ,然后 把 用 户 与 产品 进行 匹配 。 也 就 是 
说 ,对 某 一 用 户 的 推荐 ,不 需要 参考 使 用 其 他 用 户 的 偏好 信息 。 

研究 基于 社会 网 络 中 推荐 的 价值 创造 与 运作 创新 (Tsai 和 
Ghoshal,1998) ,就 是 运用 社会 网 络 中 推荐 的 方法 ,通过 研究 用 户 
的 社会 网 络 中 活动 的 行为 模式 ,利用 计算 机 在 社会 网 络 上 获取 客 
户 对 推荐 的 反应 ,观察 企业 在 生产 .供应 满足 目标 客户 需要 的 产品 
或 服务 的 一 系列 业务 活动 及 其 成 本 结构 的 新 变化 ,丰富 企业 与 情 
的 管理 理论 与 方法 。 

Web 已 成 为 人 们 获取 信息 的 一 个 重要 途径 ,然而 “信息 过 载 ? 
使 人 们 在 日 益 多 样 的 信息 类 型 中 迷失 ,推荐 系统 可 帮助 用 户 有 效 
地 解决 网 络 上 的 “信息 迷失 ”问题 ( 曾 春 ,2002; 刘建国 ,2009)。 个 
性 化 推荐 是 根据 用 户 不 同 的 需要 ,习惯 兴趣、 动机 ,信念 等 个 性 化 
因素 , 因 人 而 异地 向 用 户 提 供 差 异化 的 产品 或 服务 来 满足 用 户 的 
个 性 化 需求 (刘建国 ,2009; 张 秀 伟 ,2013)。 其 核心 就 是 建立 用 户 
与 信息 产品 之 间 的 关系 ,通过 收集 和 分 析 用 户 信 息 来 研究 用 户 的 
潜在 偏好 特点 和 行为 模式 ,建立 个 性 化 的 用 户 模 型 ,再 根据 用 户 的 
个 性 化 模型 将 用 户 所 需 的 信息 传送 给 用 户 ,实现 个 性 化 信息 推荐 ， 
它 是 目前 解决 信息 过 载 问 题 最 有 效 的 工具 。 个 性 化 信息 推荐 系统 
中 的 核心 部 分 是 智能 推荐 技术 ,因此 ,对 于 推荐 技术 的 研究 一 直 是 
研究 者 们 关注 的 热点 和 重点 。 目 前 为 止 ,主要 的 推荐 技术 包含 基 
于 内 容 过 滤 的 推荐 技术 ; 基于 协同 过 滤 的 推荐 技术 ; 基于 人 口 统 
计 信 息 的 推荐 技术 ; 基于 经 济 的 推荐 技术 ; 基于 知识 或 情境 的 推 
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荐 技术 ; 基于 关联 规则 的 推荐 技术 ; 基于 社会 化 标签 的 推荐 技术 ; 
基于 社会 信任 的 推荐 技术 等 。 下 面 重 点 选取 与 企业 网 络 与 情 密切 
相关 的 五 种 推荐 技术 进行 介绍 。 

1) 基于 内 容 过 滤 的 推荐 技术 

基于 内 容 过 滤 的 推荐 技术 是 信息 过 滤 领 域 所 派生 和 延续 的 一 
个 分 支 ,主要 通过 一 些 学 习 算 法 获取 和 更 新 用 户 偏好 ,如 决策 树 、 
神经 网 络 等 学 习 算 法 ; 基于 内 容 过 滤 的 推荐 技术 要 求 对 每 个 i 及 
每 个 用 户 wx 进行 描述 ,这 些 描 述 是 基于 一 个 特征 空间 而 给 定 的 , 即 
每 个 i 和 一 组 特征 (或 属性 )(fa,fa,，… ,fi,) 相 联系 ,而 每 个 fy JB 
于 第 j 个 特征 的 可 取 值 的 集合 Fj, 相 类 似 的 ,用 户 也 被 一 组 在 
Gi XG X- XG 集合 上 表示 的 特征 所 描述 。 根 据 这 些 描述 ,基于 
内 容 过 滤 的 推荐 方法 通过 计算 用 户 偏 好 的 表示 与 信息 资源 之 间 的 
相似 性 来 得 到 用 户 对 某 个 信息 资源 的 偏好 值 。 因 此 ,基于 内 容 过 
滤 的 推荐 技术 的 关键 问题 是 相似 度 计 算 , 对 于 信息 资源 采用 矢量 
空间 模型 表示 的 方法 来 说 ,通常 采用 的 相似 度 计算 方法 是 余弦 度 
量 法 。 基 于 内 容 过 滤 的 推荐 系统 其 优点 是 简单 ` 有 效 , 缺 点 是 难以 
区 分 资源 内 容 的 品质 和 风格 。 它 一 般 只 能 也 就 是 信息 内 容 同 质 的 
信息 ,不 能 为 用 户 发 现 新 的 感 兴趣 的 资源 ,所 以 基于 内 容 过 滤 的 推 
荐 技术 无 法 为 用 户 提 供 新 颖 的 推荐 。 

2) 基于 协同 过 滤 的 推荐 技术 

当前 ,协同 过 滤 推 荐 技术 是 最 流行 .最 广泛 实现 和 最 成 熟 的 推 
荐 技术 。 协 同 过 滤 推 荐 是 根据 用 户 的 相似 性 来 推荐 资源 ,在 协同 
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过 滤 推 荐 系统 中 ,典型 的 用 户 偏好 是 由 信息 和 它们 被 评分 值 所 形 
成 的 向 量 组 成 ,这 个 向 量 将 随 着 用 户 与 系统 的 不 断交 互 而 逐渐 增 
大 。 在 某 些 情况 下 ,评分 的 值 可 以 是 二 元 的 (喜欢 和 不 喜欢 ) 或 者 
是 用 一 定 范 围 的 实数 值 来 表示 用 户 的 偏好 程度 ( 蔡 登 ,2002)。 随 
着 Web 2.0 时 代 的 不 断 推 进 ,互联 网 信息 越 来 越 丰 富 ,尤其 是 用 户 
的 在 线 网 络 行为 成 为 研究 者 们 关注 的 内 容 ( 金 淳 ,2013; 王 伟 ， 
2014) , 王 伟 (2014) 通 过 产品 的 静态 属性 和 用 户 的 在 线 评 论 行为 构 
建 用 户 的 偏好 信息 ,以 此 来 提高 推荐 的 准确 度 和 召回 率 。 协 同 过 
滤 推 荐 技术 最 大 的 优势 是 在 于 它 完全 可 以 脱离 任何 被 推荐 对 象 的 
机 器 可 读 的 表示 形式 ,甚至 在 一 些 复杂 对 象 上 依然 工作 得 很 好 , 协 
同 过 滤 推 荐 技术 一 般 采 用 机 器 学 习 理论 中 的 最 近邻 技术 ,利用 用 
户 的 历史 喜好 信息 计算 用 户 之 间 的 距离 ,然后 利用 目标 用 户 的 最 
近邻 对 资源 信息 评价 的 加 权 平 均值 来 预测 目标 用 户 对 特定 资源 信 
息 的 喜好 程度 ,系统 会 根据 这 一 喜好 程度 来 对 目标 用 户 进 行 推荐 。 

3) 基于 关联 规则 的 推荐 技术 

基于 关联 规则 的 推荐 技术 是 通过 设 定 的 规则 为 用 户 实 现 推 
荐 。 规 则 可 以 由 用 户 定制 ,也 可 以 利用 基于 关联 规则 的 挖掘 技术 
来 发 现 ; 利用 规则 来 推荐 信息 依赖 于 规则 的 质量 和 数量 ,基于 规 
则 的 技术 其 缺点 是 随 着 规则 的 数量 增多 ,系统 将 变 得 越 来 越 难以 
管理 ; 同时 规则 的 形成 过 程 需要 的 时 间 很 长 。 一 个 规则 实际 上 就 
是 一 个 ifthen 语句 ,规则 可 以 利用 用 户 个 人 静态 属性 信息 来 建立 ， 
也 可 以 利用 用 户 动 态 信息 来 建立 。 实 现 信 息 推荐 的 工作 过 程 是 : 
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首先 根据 当前 用 户 已 阅读 过 的 感 兴趣 的 内 容 , 通 过 规则 推导 用 户 
还 没有 阅读 过 的 感 兴趣 的 内 容 , 然 后 根据 规则 的 支持 度 ( 或 重要 程 
BE) ,对 这 些 内 容 排序 后 展现 给 用 户 。 

最 常见 的 基于 规则 的 推荐 技术 的 应 用 领域 是 电子 商务 推荐 系 
统 , 它 采用 数据 挖掘 技术 中 的 关联 规则 方法 对 用 户 的 购买 记录 进 
行 分 析 ,通过 已 购 商 品 用 户 的 商品 购买 的 频繁 集合 推导 出 一 些 商 
品 的 购买 规则 ,系统 应 用 这 些 规则 为 其 他 用 户 实现 推荐 任务 。 当 
前 ,此 种 方法 已 被 应 用 到 某 些 商业 网 站 中 。 

4) 基于 社会 化 标签 的 推荐 技术 

随 着 社会 标签 系统 的 出 现 ,网 络 用 户 利 用 标签 可 标注 博客 3 
章 .音乐 作品 电影、 图像, 产品 等 资源 ,由 于 标签 的 低 门 槛 使 用 和 
低 认 知 水 平 要 求 的 特点 ,吸引 了 不 同 层 次 用 户 的 使 用 ,因此 自发 地 
产生 了 很 多 描述 信息 。 标 签 的 词汇 是 由 用 户 自由 选择 ,从 某 种 意 
义 上 将 聚合 出 资源 的 特征 。 标 签 是 用 户 根 据 个 体 需 要 直接 标注 于 
资源 上 并 与 他 人 共享 ,其 体现 了 用 户 资源 和 标签 之 间 的 多 维 关 
系 。 因 此 ,社会 标签 提供 了 一 个 观察 用 户 之 间 关 系 的 视角 ,为 反映 
用 户 偏好 提供 了 依据 ,是 实现 个 性 化 服务 的 重要 途径 (张海燕 ， 
2012). 

基于 社会 化 标签 的 推荐 技术 根据 用 户 在 资源 上 的 标注 行为 特 
征 和 标签 规律 确定 相似 的 资源 群 或 用 户 群 , 即 利 用 标签 来 确定 资 
源 之 间 的 相似 性 和 用 户 之 间 的 相似 性 ,然后 利用 这 些 相似 资源 群 
或 用 户 群 所 使 用 的 标签 进行 推荐 。 基 于 标签 的 个 性 化 推荐 系统 常 
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见 的 是 利用 标签 形成 加 权 标 签 向 量 为 用 户 兴 趣 建 模 , 其 围绕 着 用 
户 在 资源 上 标注 标签 的 频率 ,次 数 、 出 现 的 特点 等 信息 ,采用 概率 
计算 模型 等 方法 统计 这 些 信息 的 规律 。 一 般 把 规律 转换 成 可 计算 
的 量 ,用 这 些 量 来 反映 用 户 的 偏好 ,然后 完成 个 性 化 推荐 系统 中 的 
协同 过 滤 推 荐 算法 。Firan(2007) 提 出 了 基于 标签 的 音乐 推荐 系 
统 , 采 用 标签 的 频率 表达 用 户 偏好 ,标签 不 仅 反 映 了 音乐 本 身 的 类 
别 和 内 容 特点 ,而 且 还 反映 了 用 户 对 音乐 的 喜好 。 此 系统 应 用 在 
last. fm 音乐 搜索 网 站 上 ,不 仅 表现 出 了 基于 曲目 的 推荐 算法 同样 
的 推荐 准确 性 ,还 具有 多 样 性 和 新 颖 性 。Denis 基于 标签 的 BM25 
相似 性 测量 方法 改进 了 协同 过 滤 推 荐 算法 的 相似 性 测量 方法 ,由 
此 来 增加 推荐 过 程 的 准确 性 (Parra-Santander,2010) 。 
5) 基于 社会 信任 的 推荐 技术 
随 着 社会 网 络 的 迅猛 发 展 ,社会 网 络 的 大 数据 时 代 已 然 深 

。 在 线 社会 网 络 中 大 量 用 户 之 间 的 交互 信息 成 为 Web 数据 
挖掘 的 重要 来 源 ,也 给 个 性 化 推荐 系统 带 来 了 福音 。 基 于 社会 网 
络 实现 推荐 的 模型 得 到 了 研究 者 们 广泛 关注 ,研究 者 把 社会 网 络 
中 用 户 之 间 的 联系 视 作 用 户 之 间 关 系 的 另 一 维度 ,这 就 构成 了 一 
类 上 下 文 感知 的 社会 推荐 技术 。 在 线 社会 网 络 是 现实 物理 世界 的 
折射 ,因此 ,如 果 在 线 社会 网 络 中 两 个 用 户 之 间 的 交互 很 频繁 ,这 
意味 着 这 两 个 用 户 之 间 的 关系 强度 很 大 ,更 进一步 可 以 理解 为 用 
户 之 间 的 信任 程度 与 交互 关系 是 相关 的 ( 邹 本 友 ,2014)。 换 句 话 
说 , 当 两 个 用 户 之 间 的 交互 关系 为 正 关系 时 ,用 户 间 的 信任 程度 会 


提交 ; 反之 ,信任 程度 就 会 下 降 (Sherchan, 2013). E eBay 和 
Amazon 等 在 线 电子 购物 网 站 中 ,用户 间 的 信任 是 根据 他 们 之 间 历 
史 交 易 的 反馈 来 获得 ,采用 用 户 之 间 的 信任 度 可 以 提高 物品 推荐 
的 满意 度 (Ruohomaa,2005)。Xiang(2010) 提 出 了 一 种 无 监督 学 
习 的 方法 来 确定 社会 网 络 中 信任 关系 的 强度 大 小 ,用 户 间 的 连接 
强度 体现 社会 网 络 中 的 信任 关系 , 强 连接 关系 表示 用 户 间 的 比较 
高 的 信任 关系 , 弱 连 接 表示 用 户 间 的 信任 关系 低 。Zarghami 
(2009) 在 文中 引入 T-index 的 概念 来 估计 用 户 之 间 的 信任 程度 ， 
并 且 根 据 用 户 之 间 的 信任 程度 来 给 用 户 推荐 新 朋友 。 研 究 者 们 把 
朋友 ,用户 之 间 的 信任 度 引 入 到 社会 化 推荐 中 ,以 此 提高 推荐 的 准 
确 度 和 个 性 化 的 需求 。 


6.2 ”基于 图 像 内 容 的 企业 网 络 熏 情 管理 的 技术 


除了 基于 文本 内 容 外 ,图 像 一 样 可 以 反映 熏 情 。 我 们 的 实证 
研究 表明 ,有 图 像 的 微 博 的 转发 率 , 要 明显 高 于 只 有 文字 的 。 此 
外 ,有 很 多 转发 的 微 博 ,只 是 简单 地 把 图 像 进行 了 转发 。 所 以 ,要 
研究 企业 的 与 情 分 析 ,图 像 与 情 是 不 可 缺少 的 。 

在 识别 图 像 内 容 的 研究 中 ,网 络 上 的 图 像 由 于 它 的 特殊 性 ,一 
直 是 一 个 研究 的 热点 问题 。Smeulders 等 (2000) 指 出 其 根本 困难 
在 于 计算 机 能 从 0 像素 中 提取 的 底层 视觉 特征 和 用 户 在 特定 情境 
下 对 图 像 内 容 的 高 层 语义 解读 之 间 存 在 语义 鸿沟 。 
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为 了 消除 语义 鸿沟 , 现 有 方法 主要 是 利用 一 组 已 有 的 人 工 标 
注 的 图 像 训练 数据 和 识别 标签 之 间 建 立 某 种 映射 关系 ,再 根据 这 
种 映射 关系 自动 为 待 标注 的 新 图 像 添 加 相关 标签 。 目 前 公认 比较 
有 效 的 解决 方案 是 量化 尺度 不 变 特征 变换 (scale invariant feature 
transform,SIFT) 描 述 子 得 到 的 图 像 特 征 配合 SVM 为 主 的 分 类 器 
来 完成 。 

SIFT 是 用 于 图 像 处 理 领 域 的 一 种 局 部 特征 描述 子 , 该 算法 对 
图 像 的 尺度 缩放 、 平 移 、 旋 转变 换 、 其 至 亮度 变化 以 及 仿 射 变换 都 
具有 相当 的 稳健 性 。 

下 面 ,我 们 将 SIFT 算法 应 用 于 图 像 物体 识别 和 特征 提取 领 
域 ,重点 识别 提取 出 图 像 中 较为 典型 的 企业 logo、 企 业 领 导 照 片 、 
企业 名 称 等 特征 ,此 外 ,我 们 可 以 收集 大 量 已 标记 为 企业 的 图 像 ， 
针对 每 一 幅 图 像 ,完成 以 下 四 个 步骤 。 

1. 尺度 空间 极 值 检测 

针对 离线 收集 到 的 企业 图 像 进行 亚 采 样 ,将 平滑 和 亚 采样 重 
复 进行 ,就 可 以 得 到 构成 金字 塔 的 一 系列 图 像 。 如 下 定义 二 维 高 
斯 滤波 函数 ， 


G(z,y'o) = ae (其 中 ,o 表示 高 斯 函数 的 方差 ) 


输入 的 NXN 企业 图 像 I(zx,y) 在 不 同 尺度 空间 下 的 表示 ,可 
以 由 图 像 与 高 斯 核 卷 积 得 到 Gaussian 图 像 ， 


L(r,y0) = G(r,y0) X I(r y) 
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其 中 , 称 为 尺度 空间 因子 ,其 值 越 小 表示 图 像 被 平滑 得 越 少 。 大 
尺度 对 应 图 像 的 概貌 ,小 尺度 对 应 图 像 的 细节 。DoG 算 子 定 
D(x,y.0) = [G(x,ysk’)— Gr,y,0) ] XI(zr,y) 

为 了 检测 D(z,y,o) 的 局 部 极 值 点 ,需要 将 DoG 尺度 空间 每 
个 点 与 其 相 邻 尺度 和 相 邻 位 置 的 26 个 点 逐个 进行 比较 。 若 像素 
(zy,y) 是 一 个 可 能 的 SIFT 关键 点 , 则 它 必 须 在 周围 26 个 近邻 像 
素 ( 上 一 个 尺度 的 9 个 点 十 同 尺 度 的 8 个 点 十 下 一 尺度 的 9 个 点 ) 
中 是 极 值 点 。 所 有 这 样 的 局 部 极 值 点 ,就 构成 了 一 个 SIFT 候选 关 
键 点 的 集合 。 

2. 关键 点 定位 

极 值 检测 得 到 的 企业 图 像 的 所 有 关键 点 ,还 必须 通过 两 步 检 


验 才能 确定 关键 点 : 一 是 它 必须 与 周围 的 像素 有 明显 的 差异 , 即 
需要 提出 对 比 度 低 的 关键 点 ; 二 是 需要 剔除 不 稳定 的 边缘 响应 点 


H DoG 算 子 会 产生 较 强 的 边缘 响应 ) 。 

3. 关键 点 大 小 和 方向 匹配 

为 了 使 算 子 具备 旋转 不 变性 ,采用 梯度 直方 图 来 确定 关键 点 
的 主 方向 。 点 (xz,y) 处 梯度 的 模 值 和 方向 的 计算 公式 为 


may) = J La@+1,y) -La—1,y))? + ryt D—Lry— DY 


Liz yt 1) — LC sd L) 
Le Ey) — BG — iy) 


对 于 企业 图 像 的 每 一 个 关键 点 ,考虑 它 的 邻近 的 一 个 邻 域 窗 


0(x,y) = arctan 
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口内 点 的 梯度 方向 ,直方 图 的 峰值 就 代表 了 该 关键 点 出 邻 域 梯度 
的 主 方向 , 即 作为 该 关键 点 的 方向 。 为 每 个 关键 点 指定 方向 参数 ， 
使 得 算 子 具备 旋转 不 变性 。 

4. 生成 SIFT 描述 符 

为 确保 旋转 不 变性 ,首先 将 坐标 轴 旋 转 为 关键 点 的 方向 。 以 
一 个 关键 点 为 中 心 , 取 8X8 的 窗口 ,将 该 窗口 切 成 2X2 的 子 窗 
口 ,统计 每 个 子 窗 口中 的 方向 直方 图 。 

每 一 个 子 窗口 的 方向 由 其 上 4X4 的 小 块 的 方向 用 之 前 的 方 
法 来 决定 。 企 业 图 像 中 的 每 个 关键 点 方向 由 2X2 共 4 个 种 子 点 
的 方向 决定 ,一 个 种 子 点 有 8 个 方向 的 信息 , 则 每 个 关键 点 就 有 
4X8=32 HE. 

在 实际 计算 过 程 中 ,为 了 增强 匹配 的 稳健 性 ,通常 采用 4X4 
FE 16 个 种 子 点 来 描述 ,这 样 企业 图 像 中 每 个 关键 点 就 有 16 X 8= 
128 维 的 数据 ,形成 128 维 的 SIFT 特征 向 量 , 对 于 每 一 张 企业 图 
像 都 包含 多 个 关键 点 。 

由 于 我 们 已 经 有 了 针对 通用 图 像 的 识别 算法 ,把 它 用 于 对 企 
业 相 关 图 像 的 识别 ,具有 较 强 的 可 行 性 。 
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本 章 讨 论 了 文本 情感 分 析 算 法 、 短 文本 自然 语言 处 理 技术 ,并 
介绍 了 基于 微 博 的 文本 内 容 的 突 发 事件 及 全 新 突 发 事件 预警 方法 
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的 应 用 。 本 章 还 研究 了 用 户 在 紧急 状态 下 的 行为 分 析 、 社 会 网 络 
推荐 技术 及 基于 图 像 内容 的 企业 网 络 与 情 管理 的 技术 。 


思考 题 


1. 简 述 短文 本 自然 语言 处 理 技术 。 

2. 掌握 社会 网 络 推荐 技术 及 基于 图 像 内 容 的 企业 网 络 与 情 
管理 的 技术 。 

3. 举例 说 明基 于 微 博 的 文本 内 容 的 突 发 事件 及 全 新 突 发 事 
件 预警 方法 的 应 用 。 


BT 


面向 企业 网 络 与 情 的 社会 网 络 
信誉 及 营销 管理 


本 章 学 习 目 标 
。 掌握 基于 内 容 和 交易 网 络 结构 的 信任 测度 。 
。 熟悉 基于 企业 网 络 和 与 情 分 析 的 企业 网 络 营 销 管理 方法 。 


7.1 面向 企业 网 络 与 情 的 社会 网 络 信 誉 
平台 构建 方法 


企业 信誉 评价 是 企业 品牌 管理 的 组 成 部 分 ( 刘 晓 亮 ,2013)。 
言 誉 是 通过 虚拟 组 织 的 建立 来 实现 的 ,解决 方案 是 在 网 上 建立 信 
誉 市 场 。 开 展 信 誉 市 场 的 第 一 步 是 所 有 的 交易 者 都 必须 注册 ; 第 


sy 
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二 步 通过 客户 向 交易 伙伴 发 送 的 反馈 信息 采用 数据 挖掘 的 方法 
( 周 晓 飞 和 石 勇 ,2009) 来 创建 一 个 信用 等 级 系统 。 

言 誉 系统 的 出 现 , 使 信誉 变 得 数量 化 和 可 视 化 。 作 为 一 种 非 
正式 的 、 自 律 性 的 制度 机 制 ,信誉 系统 广泛 使 用 于 在 线 交 易 中 。 例 
如 ,易趣 网 和 淘宝 网 部 有 社区 信誉 系统 。 在 线 信誉 系统 通过 收集 
评价 信息 来 计算 客户 的 信任 度 。 客 户 信 任 度 将 为 交易 客户 提供 极 
有 价值 的 参照 ,为 在 线 交易 提供 安全 保障 。 在 线 信 誉 系统 中 ,通常 
包括 两 个 部 分 : 信誉 评价 体系 和 反馈 论 

一 般 地 ,网 站 对 客户 都 有 信誉 评价 纪录 ,客户 在 网 站 上 交易 成 
功 后 ,在 评价 有 效 期 内 ,双方 就 该 交易 互相 作出 信誉 评价 : 好 评 
(十 1) .中 评 (0) 、 差 评 ( 一 1)。 众 买方 对 某 个 卖方 提供 的 评价 累计 
后 成 为 该 卖方 的 信誉 评价 的 重要 指标 , 众 卖 方 对 某 个 买方 提供 的 
评价 累计 后 成 为 该 买方 的 信誉 评价 的 重要 指标 。 当 买卖 方 达到 一 
定 的 计算 分 值 后 ,网 站 上 会 有 一 定 的 信誉 (信用 ) 等 级 图 标 出 现 , 为 
买卖 方 提供 交易 决策 支持 。 这 样 未 来 的 交易 者 可 以 凭借 信用 等 级 
系统 估量 对 方 的 可 信和 度 。 例 如 ,在 以 往 的 研究 中 ,Li 等 (2008) 通 过 
采用 多 目标 规划 的 方法 对 信用 卡 的 持 卡 用 户 的 信用 水 平 进 行 分 类 
和 评估 ,李建平 等 和 刘 京 礼 等 (2010) 通 过 采用 支持 向 量 机 及 其 改 
进 方法 结合 信用 卡 的 真实 数据 对 持 卡 者 的 信誉 进行 分 类 和 评估 。 

在 信誉 系统 的 体系 构建 上 ,一 些 学 者 建议 : 

(1) 引入 社会 征 信 体系 ,对 买卖 双方 进行 综合 评级 。 对 买卖 
双方 的 信誉 等 级 评定 不 完全 信赖 交易 的 评价 ,而 是 与 双方 的 社会 
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信用 体系 紧密 联系 起 来 ,把 好 信誉 评价 机 制 的 源头 关 。 

(2) 把 物流 行为 与 评价 机 制 直接 关联 。 对 于 有 形 产品 的 交 
易 , 除 同城 贸易 以 外 ,异地 贸易 一 律 与 物流 行为 挂钩 ,没有 物流 行 
为 的 异地 交易 均 视 为 虚假 交易 ,以 避免 通过 虚假 交易 “ 刷 信誉 ”的 
行为 。 

(3) 调整 评价 分 值 的 范围 和 权重 。 把 现行 的 三 种 分 值 改 进 为 
十 分 制 或 百分制 ,以 增加 评分 的 科学 性 。 同 时 以 每 单 贸易 的 产品 
价值 或 交易 额 为 依据 ,设置 不 同 的 权重 ,增加 高 价格 产品 的 权重 ， 
减少 低 价格 产品 的 权重 。 

(4) 根据 产品 的 保修 期 ,给 客户 重新 评价 的 机 会 。 

(5) 完善 恶 评 申诉 体制 ,给 卖方 营造 一 个 正常 的 成 长 环境 。 

作为 主观 评价 方法 的 信誉 系统 ,已 经 成 为 企业 品牌 管理 中 应 
用 最 广 也 是 最 重要 的 一 种 信誉 管理 方法 。 信 誉 系统 保存 了 每 个 交 
易 方 的 每 一 笔 交 易 和 相关 的 信誉 度 评价 ,这 是 陌生 的 交易 双方 之 
间 建 立信 誉 关系 的 基础 。 买 方 在 交易 前 通过 前 人 对 卖方 的 评价 来 
作出 他 的 购买 决策 。 同 时 买方 对 卖方 的 评价 也 会 影响 卖方 以 后 的 
行为 ,他 们 会 为 了 更 高 的 信誉 度 表 现 出 更 好 的 行为 。 

建设 社会 网 络 的 信誉 系统 平台 ,就 是 将 各 方 信誉 数据 集中 到 
一 起 ,这 样 做 的 好 处 是 ,建立 一 个 基于 社会 网 络 信誉 的 开发 式 的 用 
户 信用 系统 ,便于 任何 需要 它 的 用 户 或 企业 获取 (在 获得 授权 的 条 
fF). 
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7.2 基于 内 容 和 交易 网 络 结构 的 信任 测度 


假设 商品 为 Pi 一 Pi ,买方 为 bı ~b, ,卖方 为 sı ~ ss, fi fin RK 
卖 双方 之 间 的 关系 网 如 图 7-1 所 示 。 


图 7-1 商品 及 买卖 双方 之 间 的 关系 网 

WE b: ALD; 有 共同 的 卖方 s4, 则 在 买方 -卖方 交易 关系 2 模式 
网 中 ,我 们 可 以 计算 bi 对 与 信任 度 。 首 先 ,我 们 定义 一 个 基于 交 
易 和 社会 网 络 文 本 内 容 的 混合 信任 度 。 如 图 7-2 所 示 ,w 是 交易 
量 ,v 是 客户 讲 贬 值 ,我 们 定义 一 个 向 量 ,通过 夹 角 反映 信任 度 ， 
IP = (wi? oP) HP wa Wb; Mb; Ab; 共同 ss 购买 次 数 ， 
vP EL 一 1,1] 为 6; 对 s4 给 出 的 赛 贬 平均 值 , 归 一 化 (0,1) (时 变 
的 ,不 断 修正 )。 


图 7-2 商品 及 买卖 双方 之 间 的 关系 网 


显然 ,如 果 把 更 多 的 向 量 放 在 一 起 ,可 以 多 重 比较 ,看 哪 两 个 
客户 相互 信任 度 比 较 高 。 

类 似 地 ,我 们 可 以 通过 (买方 -商品 关系 2 模式 网 ) 可 得 信任 
度 , 也 可 以 得 到 加 权 平 均值 。 


7.3 ”基于 企业 网 络 与 情 分 析 的 企业 网 络 
营销 管理 方法 


网 上 购物 带 有 着 功利 主义 和 享乐 主义 的 情感 (Machado， 
2005) ,传统 的 产品 评论 往往 关注 于 把 文本 映射 到 给 定 的 主题 ,如 
体育 、 经 济 、 政 治 等 ( 施 国良 和 程 楠 楠 , 2011; 李 实 , 2012; 
Cantador,2011)。 但 是 ,对 一 个 产品 制造 商 而 言 ,他 们 想 知道 互联 
网 上 那些 “草根 ”客户 对 自己 产品 或 者 竞争 对 手 产 品 的 评价 ,因为 
“群众 的 眼睛 是 “雪亮 ?的 "。 了 人 解 “ 草 根 ” 客 户 对 自己 产品 的 评价 ， 
对 他 们 自己 的 产品 发 展 , 市 场 和 客户 关系 经 营 是 非常 有 价值 的 。 
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基于 社会 网 络 与 情 的 营销 与 传统 营销 管理 的 区 别 都 是 为 了 满 
足 用 户 的 需求 ,但 传统 营销 管理 基本 上 还 是 以 企业 为 中 心 ,用 户 只 
能 从 用 户 生 产 出 来 的 产品 对 其 价值 与 质量 进行 关注 与 选择 。 而 在 
社会 网 络 时 代 , 用 户 在 整个 销售 过 程 中 更 起 主导 作用 ,以 用 户 为 中 
心 的 理念 得 到 最 大 程度 的 体现 ,用 户 可 以 浏览 商品 ,而 且 还 可 以 设 
计 产 品 , 甚 至 可 以 决定 商品 的 价格 。 

由 此 可 见 , 基 于 社会 网 络 与 情 营 销 的 新 特点 是 : 

(1) 客户 自发 的 信息 共享 汇聚 ,突破 了 企业 单 向 的 广告 .推送 
等 ,一 方面 通过 信任 机 制 和 模仿 机 制 等 带动 了 其 他 消费 者 的 消费 ， 
男 一 方面 也 为 企业 个 性 化 多 样 化 创新 制造 和 服务 提供 了 机 会 。 

(2) 以 客户 价值 为 中 心 结 成 价值 网 络 , 改 变 了 组 织 形式 和 演 
化 机 制 (Jones 等 ,1997; Talluri 等 ,1999; 肖 渡 和 沈 群 红 ,2000; E 
伟 ,2005) ,每 个 企业 不 仅 要 构建 或 加 入 一 个 价值 网 络 ,而 且 要 考虑 
自己 在 价值 网 络 中 的 位 置 ,避免 低 端 锁定 ( 胡 大 立 ,2006; 杨 瑞 龙 
和 汉 健 ,2004) 。 

(3) 这 种 信息 技术 支撑 、 信 息 资 源 共 享 的 全 球 化 商务 模式 具 
有 更 高 的 效率 .更 大 的 活力 、 敏 捷 性 和 创新 性 。 

基于 社会 网 络 与 情 的 营销 有 以 下 功能 和 特征 (Ko,2013) : 

(1) 购物 列表 通过 搜集 消费 者 的 浏览 点击 及 购买 数据 ,在 消 
费 者 浏览 商品 时 ,自动 推荐 与 该 商品 属性 相似 的 产品 。 例 如 亚 马 
Ñh „Best Buy, Kaboodle, Style Feeder, This Next、 京 东 商 城 、 天 
猫 等 。 
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(2) 分 享 服务 或 产品 允许 人 们 通过 文字 、 图 片 或 视频 等 方式 
将 购买 商品 或 服务 的 过 程 、 商 品 使 用 或 享受 服务 的 经 验 等 通过 社 
会 网 络 分 享 给 对 此 商品 或 服务 感 兴趣 的 消费 者 。 是 一 种 用 于 分 享 
消费 者 的 购买 经 历 或 享受 服务 的 工具 ,从 人 们 兴趣 角度 提供 了 社 
会 网 络 佐证 ,例如 蘑菇 街 、. 美 丽 说 、 辣 妈 酷 宝 .零食 控 。 

(3) 社会 网 络 评论 通过 具有 权威 性 质 的 专业 评论 者 ( 微 博 评 
论 、 网 络 杂 志 评 论 ,YouTube 评论 等 ) 和 真实 的 消费 者 ,赋予 人 民 的 
声音 以 权威 ,让 “草根 ”的 力量 显示 出 来 。 例 如 与 其 他 购买 者 所 提 
供 的 对 于 产品 或 服务 质量 的 可 信 评 价 , 最 早出 现 的 类 似 社会 网 络 
评论 来 自 Web 2. 0 时 代 开 启 的 eBay 对 卖家 的 评论 。 扩 大 到 社会 
网 络 评论 就 加 入 了 更 多 人 的 属性 ,不 仅 局 限于 交易 阶段 的 评论 ,而 
是 通过 社会 网 络 进行 的 评论 。 

(4) 社会 网 络 推荐 系统 通过 对 相似 消费 群体 的 挖掘 提供 个 人 
推荐 的 工具 ,例如 天 猫 .京东 商城 .亚马逊 .当当 等 。 

(5) 推荐 计划 通过 购物 者 信任 的 人 们 进行 相关 推荐 。 

(6) 促销 订阅 获得 那些 大 多 数 人 不 了 解 的 独家 促销 。 

(7) 团购 允许 购买 者 成 为 一 个 大 交易 中 的 一 份子 的 工具 
(Zhou 等 ,2013) ,而 这 些 购 买 者 在 网 上 自动 形成 ,彼此 相互 不 
认识 。 

(8) 社交 化 网 络 店面 针对 社交 化 网 络 用 户 的 独 有 的 优惠 促 
销 、 商 品 (Leitner 和 Grechenig,2008) 。 

所 以 ,在 Web 2.0 环境 下 的 企业 营销 活动 更 强调 的 是 用 户 , 重 
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点 突出 用 户 , 以 及 这 种 社会 网 络 活动 给 企业 带 来 的 增值 。 用 户 成 
为 销售 活动 的 中 心 , 所 有 的 活动 依靠 用 户 来 进行 ,用 户 不 再 是 作为 
被 动 的 客体 而 是 作为 一 种 主体 参与 ,用 户 除 了 作为 使 用 者 之 外 , 同 
时 成 为 主动 的 生产 者 、 使 用 者 和 传播 者 。 在 这 种 新 型 的 商务 模式 
下 ,用 户 与 商家 的 概念 变 得 模糊 ,用 户 从 简单 的 购买 者 变 为 全 面 整 
合 的 客户 ,甚至 是 营销 者 ,他 们 不 仅 可 以 选 购 商品 ,还 可 以 推销 产 
品 , 在 销售 活动 中 获得 利润 。 


7.4 RENE 


本 章 讨 论 了 面向 企业 网 络 与 情 的 社会 网 络 信 誉 平台 构建 方法 
和 基于 内 容 和 交易 网 络 结构 的 信任 测度 ,提出 了 买方 -卖方 交易 关 
FR 2 模式 网 的 夹 角 信任 度 方法 ,探讨 了 基于 企业 网 络 与 情 分 析 的 
企业 网 络 营 销 管理 方法 。 


1. 掌握 基于 内 容 和 交易 网 络 结构 的 信任 测度 。 
2. 举例 说 明基 于 企业 网 络 与 情 分 析 的 企业 网 络 营销 管理 。 
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本 章 学 习 目 标 


基于 社会 网 络 和 与 情 内 容 的 用 户 意图 挖掘 基础 模型 和 
用 户 关系 网 络 拓扑 及 用 户 在 信息 传播 中 行为 基础 


。 掌握 
基于 
模型 。 

。 熟悉 衍生 模型 。 


本 章 的 研究 力图 回答 这 样 一 个 问题 : 在 社会 网 络 大 数据 环境 
下 ,基于 企业 社会 网 络 与 情 的 内 容 和 结构 的 用 户 行 为 分 析 , 及 在 此 
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基础 上 ,对 企业 绩效 的 影响 机 制 和 企业 管理 新 方法 。 

本 章 将 对 于 企业 社会 网 络 和 与 情 的 主体 (用 户 ) 的 具体 行为 模式 
进行 研究 。 通 过 对 用 户 行为 的 研究 得 出 社会 网 络 大 数据 环境 下 企 
业 和 与 情 的 具体 静态 (内 容 ) 以 及 动态 (结构 ) 的 特点 ,为 企业 社会 网 
络 大 数据 环境 下 与 情 管理 方法 的 研究 奠定 基础 。 

我 们 先 对 社会 网 络 中 的 用 户 行为 给 予 形 式 化 的 定义 。 在 给 定 
时 间 (m ,tr) 内 ,帖子 p 在 网 络 中 传播 过 程 可 以 看 作 是 一 个 网 状 结 
构 , 如 图 8-1 所 示 。 针 对 目前 典型 社会 网 络 (例如 微 博 ) ,每 一 个 用 
户 ( 节 点 ) 对 帖子 可 以 采取 的 基本 动作 有 发 帖 a。 EL — 1, +1) A 
a, © {—1,0.1} ME ag E[ 一 1, 十 1]、 转 发 a; E[ 一 1, 十 1]\ 评 论 
a4€E[ 一 1, 十 1 删除 asE10,1} ,其 中 {一 1,0,1}) 和 [一 1, 十 1 表示 
了 转发 .回复 或 评论 帖子 内 容 的 情感 倾向 , 负 为 贬 .0 为 中 性 、 正 为 


A={a;: i=0, 1, =, 5} 
用 户 行为 分 解 


1 1 
1 1 1 1 1 


时 间 轴 


图 8-1 和 与 情 传 播 过 程 的 时 间 序 列 分 解 示意 图 
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人 寡 ,{0,1}) 表 示 了 是 否 删 除 ,0 为 否 、1 为 是 。 如 果 在 转发 和 评论 中 
有 进一步 的 @ 动 作 , 则 相对 于 它 在 网 络 结构 中 对 某 些 连 线 “加 粗 ”。 

令 基 本 动作 集 为 A={a; : i 二 0,1,…,5) ,其 中 动作 a; 有 五 个 
属性 : E s WEF p、 时 间 t、 地 理 位 置 /对象 。 和 其 他 特别 属性 4， 
定义 动作 ai(s,p,t,1,0,0), 其 中 主体 :表示 用 户 ,地 理 位置 / 表示 
了 包含 使 用 移动 终端 在 内 的 用 户 发 帖 时 所 处 的 地 理 位 置 , 对 象 0 
是 指 主体 发 出 的 帖子 p 所 到 达 的 节点 。 

网 状 结构 中 的 用 户 动作 可 以 用 如 下 序列 表示 ,L, = {ai(* ps 
tor % 9% 9%) a pts ss) a ptrs* > *%,*)| 
ail * spots xx x)EAiE{0,1,…,5}}。 于 是 ,帖子 如 在 网 络 
中 传播 的 节点 个 次 (因为 可 能 一 个 节点 两 次 或 以 上 ) 为 |L,|。 

设 在 给 定时 间 (zo ,tr) 内 ,网 络 中 传播 的 信息 集合 为 P= { pos 
Pi，… ,pn)， 则 网 络 中 的 所 有 动作 可 以 用 Lp 二 {LyosLps** Lon) 
表达 ,总 数 为 |Lp | 。 

同 理 , 在 给 定时 间 (t ,tr) 内 ,网 络 中 的 某 个 用 户 ; 的 行为 也 可 
以 用 如 下 序列 表示 ,LL 二 {aiC(s, * stos * ,x*,x*),ai(s, Ft *， 
,0 ass * strs ,x*)|a(s, xyt sx xx)EA， 
GE {0,1,…,5) }。 于 是 ,用 户 s ZEE] Co ,tr) 内 的 行为 的 总 数 是 
IL,|。 同 理 可 以 得 出 其 他 的 序列 LiLo 及 其 数目 。 

如 果 设 在 给 定时 间 (to,tr) 内 ,网 络 中 参与 传播 的 用 户 集合 为 
S 二 {v0,51,… ,sm), 则 网 络 中 的 参与 用 户 的 行为 集合 可 以 用 Ls = 
{Lo,La,…,Lw} 表 示 , 其 总 数 为 |Ls|。 显 然 , 应 该 有 |Lz| 王 |Ls|。 
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本 章 把 模型 分 为 基础 模型 和 衍生 模型 。 为 了 清晰 ,基础 模型 
编号 为 罗马 数字 ,衍生 模型 编号 为 英文 字母 。 


8.2 基础 模型 


在 本 部 分 中 ,基于 社会 网 络 计算 ,我 们 将 提出 两 个 面向 企业 社 
会 网 络 与 情 的 用 户 行 为 基础 模型 ,分 别 是 : 基于 社会 网 络 内 容 的 
用 户 意图 挖掘 模型 (模型 [ )、 基 于 社会 网 络 用 户 之 间 关 注 或 “ 粉 ” 
行为 静态 结构 及 用 户 之 间 和 与 情 动 态 传播 行为 的 模型 (模型 I)。 其 
中 ,模型 是 模型 了 的 基础 。 模 型 是 对 用 户 帖子 内 容 的 挖 气 , 主 
要 涉及 发 帖 co、 回复 ay 及 转发 as 等。 模型 是 对 网 络 结构 的 分 
W, EW RA a LE a, HK as 及 评论 a, 等 。 

1. 基础 模型 TOE REA Be TS ARA J F RR E BO 

基础 模型 T EE JH FX is Me E Ze t p L AS JE HE CO 
本 内 容 和 图 像 内 容 ) 进 行 研究 与 建 模 。 

(1) 基础 模型 [-1( 基 于 社会 网 络 文本 内 容 的 用 户 情感 倾向 控 
掘 模型 ) 。 

在 本 章 中 ,我 们 也 选用 其 成 熟 的 情感 倾向 分 析 技 术 , 用 于 社会 
网 络 下 的 企业 与 情 研 究 中 。 

我 们 把 社会 网 络 中 与 企业 相关 的 情感 倾向 值 定义 为 企业 社会 
网 络 与 情 情 感 倾 向 值 , 简 称 企 业 与 情 值 。 

由 于 我 们 的 研究 是 针对 企业 的 ,所 以 我 们 需要 建立 一 个 知名 
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企业 名 单 库 ,通过 社会 网 络 手工 信息 收集 等 多 种 途径 进行 材料 的 
收集 ,将 知名 企业 名 单 纳 入 名 单 库 。 在 已 有 的 研究 中 ,对 每 一 个 存 
储 在 库 中 的 待 研究 企业 ,我 们 已 经 收集 了 其 各 类 简称 、 上 市 股票 代 
码 \ 企 业 领导 人 姓名 等 ,但 主要 目的 是 为 了 进行 针对 其 股市 波动 的 
研究 。 我 们 将 挑选 一 个 先期 和 我 们 有 良好 关系 的 典型 企业 ,进行 
案例 研究 。 

特别 需要 指出 的 是 : 对 微 博 等 社会 网 络 来 说 ,信息 多 以 短文 
本 的 形式 出 现 。 所 以 ,研究 短文 本 条 件 下 的 企业 与 情 也 非常 重要 。 
进一步 ,有 效 地 实时 监控 这 些 在 线 文 本 也 是 非常 重要 的 。 因 为 在 
线 文 本 中 恶意 的 负面 "流言 ?可 能 导致 企业 信誉 严重 流失 ,及 时 发 
现 并 加 入 正面 的 信息 ,就 可 以 有 效 地 防止 问题 的 发 生 , 从 而 反 过 来 
正面 引导 和 影响 社会 网 络 的 企业 与 情 , 如 图 8-2 所 示 。 所 以 ,上 述 
应 用 相当 于 “企业 级 ”的 与 情 分 析 监 控 。 事 实 上 ,为 了 完成 国家 层 
面 上 的 奥 情 管理 ( 陈 华 和 梁 循 ,2007) ,相关 部 门 早 就 建立 了 国家 级 
的 与 情 监控 中 心 。 

(2) 基础 模型 [ -2( 基 于 社交 网 络 图 像 内 容 的 特定 用 户 意 图 分 
析 模 型 ) 。 

显然 ,包含 图 片 的 微 博 携带 的 信息 量 更 大 ,研究 发 现 包含 图 片 
的 微 博 有 明显 多 的 转发 量 。 

对 企业 商品 或 服务 的 评述 ,有 的 配 以 图 像 ,其 中 一 部 分 图 像 是 
经 过 手机 拍摄 ,通过 无 线 网 络 直 接 传播 到 微 博 上 的 。 如 何在 庞大 
的 数据 中 甄别 与 提取 特定 企业 相关 图 像 , 并 进行 深入 的 分 析 , 一 直 
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是 一 个 比较 难 的 课题 。 显 然 如 果 泛 泛 地 做 难以 出 成 果 , 所 以 ,在 具 
体 的 研究 中 ,可 以 挑选 一 个 特定 的 主题 (例如 某 个 企业 的 突 发 事 
件 ) ,针对 该 特定 企业 展开 研究 。 我 们 研究 的 内 容 缩小 到 检测 发 现 
与 某 特定 企业 相关 的 图 片 。 首 先 ,我 们 可 以 收集 该 企业 的 相关 图 
片 , 建 立 其 图 像 库 。 图 像 库 包括 企业 高 管 照片 .企业 logo 及 中 英文 
名 称 等 。 其 次 ,使 用 SIFT 等 算法 对 图 像 特 征 进 行 标注 ,并 进一步 
利用 SVM 等 机 器 学 习 方 法 进行 分 类 学 习 。 最 后 ,将 机 器 学 习 结 果 
应 用 到 对 企业 社会 网 络 与 情 突 发 事件 的 预警 中 去 。 

2. 基础 模型 工 ( 基 于 社会 网 络 结构 的 模型 : 用 户 关 系 网 络 拓 
扑 及 用 户 在 信息 传播 中 的 行为 ) 

基础 模型 开 主 要 用 于 对 企业 社会 网 络 的 动态 属性 (网 络 传播 
结构 ) 进 行 研究 。 通 过 这 部 分 的 研究 挖掘 企业 的 与 情 动态 传播 特 
性 ,为 社会 网 络 复杂 环境 下 企业 和 与 情 的 管理 方法 的 研究 奠定 动态 
控制 的 基础 。 对 社会 网 络 结构 的 研究 ,本 模型 不 仅 涵盖 网 络 社区 


第 8 章 面向 企业 社会 网 络 和 与 情 管理 的 用 户 行为 理论 


的 发 现 与 分 析 , 还 将 探讨 关键 路 径 和 权威 用 户 , 也 就 是 说 ,本 模型 
将 分 别 从 “ 面 "“ 线 ”和 “点 ”来 进行 。 

(1) 基础 模型 和 -1( 用 户 中 的 社区 发 现 : 用 户 群 体 行为 模型 ) 。 

社会 网 络 多 样 化 的 另 一 个 突出 的 特征 是 异 质 网 络 的 出 现 , 异 
质 网 络 指 的 是 网 络 中 存在 多 种 类 型 的 用 户 和 多 种 连接 关系 ,用 户 
的 类 型 通常 表现 为 内 容 ,用 户 之 间 的 关系 是 反映 了 用 户 之 间 的 联 
系 。 现 阶段 绝 大 多 数 的 用 户 社区 发 现 算法 往往 将 用 户 联系 同 用 户 
内 容 相 隔离 ,从 而 导致 其 社区 发 现 结果 不 够 合理 ,而 少数 综合 用 户 
联系 和 内 容 的 用 户 社区 发 现 算法 较为 复杂 ; LCA 算法 是 社区 发 现 
算法 中 算法 效率 较 高 , 且 社 区 质量 较 好 的 算法 ,然而 ,其 在 聚 类 时 
未 考虑 边 的 真实 兴趣 体现 。 

针对 这 些 问 题 ,本 章 也 将 构建 配属 了 关注 关系 的 加 权 生 活 网 
络 , 以 关注 关系 之 间 是 否 有 共同 用 户 为 关注 关系 潜在 的 边 ,以 关注 
关系 所 关联 用 户 的 兴趣 集 的 交集 为 关注 关系 的 兴趣 特征 ,我 们 构 
建 了 微 博 网 络 R-C 模型 (周小平 和 梁 循 ,2014) ,如 图 8-3 所 示 ,其 
中 ,U;、T; 和 工 ; 分 别 为 传统 微 博 模 型 中 的 用 户 、 微 博 和 用 户 关 系 ; 
Ri、C; A U; 分 别 为 微 博 网 络 R-C 模型 中 的 用 户 关 系 、 用 户 关 系 特 
征 和 用 户 关系 间 潜 在 的 连接 。 在 此 基础 上 ,我 们 可 以 研究 这 些 社 
区 结构 和 特定 企业 与 情 管 理 上 的 作用 ,并 给 企业 管理 提供 指导 。 
社区 发 现 的 结果 可 以 用 于 进行 对 企业 有 利信 息 的 精准 投放 或 精准 
的 个 性 化 推荐 ,为 企业 与 情调 控 提供 支持 。 

社区 发 现 模型 其 实 可 以 有 很 多 种 。 我 们 观察 到 ,上 述 社区 发 
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微 博 网 络 R-C 模 型 


传统 微 博 网 络 模型 


图 8-3 ”社会 网 络 R-C 模型 图 

现 模型 ,实际 上 只 是 对 物理 存在 的 拓扑 网 络 结构 进行 的 社区 发 现 。 
如 果 把 用 户 的 内 容 属 性 考虑 进去 ,会 进一步 提高 模型 的 实用 性 。 
所 以 ,我 们 也 计划 进一步 研究 基于 内 容 的 某 领域 (例如 足球 .育儿 ) 
的 兴趣 社区 发 现 模型 ,或 称 为 共 现 词 社区 发 现 模型 。 

具体 地 说 ,首先 从 社会 网 络 G 中 ,抽出 一 个 的 兴趣 子 网 (例如 
妈妈 育儿 子 网 ) 或 特定 子 网 , 记 为 G1 ,然后 在 这 个 兴趣 子 网 Gi 中 进 
行 社 区 发 现 。 此 外 ,上 述 特定 子 网 为 面向 某 企 业 的 子 网 。 可 以 看 
出 , 子 网 也 是 基于 社会 网 络 拓扑 结构 的 模型 。 

在 本 章 研 究 中 ,为 了 叙述 简单 ,我 们 在 G A G 都 适用 的 情况 
下 ,只 简单 地 写 为 G。 

(2) 基础 模型 下 -2( 用 户 网 络 中 的 路 径 : 用 户 动态 行为 模型 ) 。 

针对 企业 的 奥 情 ,识别 熏 情 传播 的 路 径 至 关 重 要 ,尤其 是 这 些 
传播 路 径 中 的 关键 路 径 。 显 然 ,对 某 条 信息 的 传播 来 讲 , 处 于 关键 
路 径 中 的 用 户 ,其 影响 力 比 其 他 用 户 要 大 。 
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关键 路 径 分 为 两 大 类 ,基于 网 络 拓扑 结构 的 静态 关键 路 径 和 
基于 动态 传播 的 关键 路 径 。 其 中 ,基于 网 络 拓扑 结构 的 又 分 为 社 
区 内 关键 路 径 、 跨 社区 关键 路 径 , 如 图 8-4 所 示 。 在 一 个 社区 中 ， 
两 个 点 之 间 的 最 短路 径 , 称 为 社区 内 关键 路 径 。 


图 8-4 基于 网 络 拓扑 结构 的 关键 路 径 发 现 


首先 我 们 将 两 个 相 邻 用 户 之 间 的 连 线 称 为 线段 。 在 跨 两 个 社 
区 的 所 有 连 线 中 ,出 进 这 两 个 社区 的 用 户 的 度 的 总 和 最 大 的 那 条 
线段 , 称 为 两 个 社区 之 间 的 桥 。 对 于 任何 跨 社区 的 两 个 用 户 , 经 由 
桥 的 最 短路 径 称 为 它们 之 间 的 跨 社区 关键 路 径 。 

基于 动态 传播 关键 路 径 的 分 析 , 需 要 考虑 传播 信息 最 多 的 路 
径 , 它 也 分 为 社区 内 关键 路 径 、 跨 社区 关键 路 径 。 

在 信息 实际 传播 中 ,不 同 用 户 ,转发 和 评论 信息 量 不 同 , 有 的 
用 户 是 喜欢 转发 和 评论 的 “大 嘴 ”, 有 的 喜欢 “潜水 ”。 在 社会 网 络 
中 ,假设 两 个 用 户 一 个 在 北京 ,一 个 在 广州 ,只 要 它们 和 用 户 i 是 
相 邻 用 户 ,信息 从 用 户 i 到 达 两 个 用 户 的 时 间 就 是 相同 的 。 

在 一 个 社区 G 内 ,在 某 个 单位 时 间 内 ,用 户 i 转发 和 评论 信息 
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量 为 W;, 信 息 从 用 户 i 传播 到 用 户 y。 这 两 个 用 户 间 的 实际 路 径 
可 能 有 多 条 , 设 第 条 路 径 上 的 用 户 为 iis ,… i,j, WERKIE k E 
的 所 有 用 户 转发 和 评论 的 总 信息 量 为 W; 十 5i Wi,。 在 用 户 


i 和 j 之 间 的 所 有 路 径 中 , 称 第 L= arg max, Pw 条 路 径 为 关 刍 
路 径 (“ 大 嘴 ” 传 播 路 径 )。 在 实证 时 ,在 给 定时 间 (wo,itr) 内 ,一 个 帖 
子 2p 在 网 络 中 传播 过 程 可 以 看 作 是 一 个 网 状 结构 ,网 状 结构 中 的 
用 户 动作 可 以 用 如 下 序列 表示 ,LL 二 {ai(x*,p,to, *，x*,*)， 
atapir tok Ea Eptir Eaka wa spots *, 
*,* EAE {0.1555} }. n= l Ly -se|。 关 键 路 径 (“ 大 
嘴 ” 传 播 路 径 ) 就 是 找 最 大 的 ns 对 应 路 径 。 

在 跨 两 个 社区 的 所 有 连 线 中 ,在 某 个 单位 时 间 内 ,出 进 这 两 个 
社区 的 用 户 被 转发 和 评论 的 总 和 最 大 的 那 条 线段 , 称 为 两 个 社区 
之 间 基 于 内 容 的 桥 。 对 于 任何 跨 社 区 的 两 个 用 户 , 经 由 基于 内 容 
的 桥 的 最 短路 径 称 为 它们 之 间 的 跨 社 区 基于 内 容 的 关键 路 径 。 

在 社会 网 络 中 , 用户 是 否 去 发 帖 a EL—-1, +1), A 
a,€{—1,0,1} .回复 azE[ 一 1, 十 1]、 转 发 a; E[ 一 1, 十 1]\ 评 论 
a4s€E[ 一 1, 十 1]\、 删 除 as E€ {0,1} ,构成 了 用 户 的 “动态 ”行为 。 由 于 
用 户 在 网 络 中 所 处 的 不 同 社区 .路 径 以 及 自身 用 户 的 重要 性 等 ,都 
对 企业 与 情 产生 了 不 同 程度 的 影响 。 

当然 ,关键 路 径 还 可 以 有 更 复杂 的 定义 ,因为 影响 关键 路 径 的 
因素 很 多 , 这 可 能 涉及 更 复杂 的 {a;(x*,p,io, *,，*,， x), 
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ail * spitis x so ) sax spots ss)|a( ,pts , 
* ,x*)EA,iE {0,1,…,5} } 表 示 。 事 实 上 ,在 网 络 中 ,信息 传播 
不 仅 是 和 具体 内 容 以 及 会 和 时 间 等 因素 有 关 , 而 且 信 息 在 传播 过 
程 中 还 会 衰减 。 如 果 将 这 些 信 息 考虑 进入 ,会 使 得 路 径 的 描述 更 
有 意义 。 

对 任何 两 个 不 直接 连接 的 用 户 之 间 , 可 能 存在 多 条 路 径 , 这 些 
路 径 可 以 形成 串联 和 并 联 方 式 , 如 图 8-5 所 示 。 在 图 8-5 中 ,6b 代 
表 网 络 中 的 用 户 ,该 用 户 可 能 含有 很 多 内 容 信 息 和 我 们 前 面 模型 
计算 出 的 情感 倾向 值 、 图 像 内 容 标签 等 ( 曹 润 和 梁 循 ,2012; 施 晓 
Ff AURA 2012) 。 

对 串联 方式 来 说 ,假设 某 一 条 路 径 上 用 户 总 数 为 N 十 1( 含 首 
尾 用 户 ) ,第 0 个 用 户 ( 即 首 用 户 ) 的 信息 值 W,, 则 第 N 个 用 户 ( 即 


N 
尾 用 户 ) 的 信息 值 为 [[aw.. 
对 并 联 方式 来 说 , 设 M 为 到 达 用 户 b; 的 路 径 数 (例如 在 图 8-5 


中 ,M 二 5), 则 用 户 b; 的 信息 值 为 Sw.. 
除了 串联 和 并 联 方式 外 ,信息 在 传播 中 还 存在 着 衰减 和 放大 情 
况 。 在 本 章 中 ,我 们 可 以 研究 和 实验 各 种 内 容 信息 衰减 率 的 规律 。 
首先 ,路径 越 长 ,信息 训 减 的 可 能 性 越 大 。 我 们 设 任意 两 个 相 
邻 用 户 的 距离 为 1,A 为 传播 的 用 户 的 个 数 ( 即 用 户 与 信息 源 用 户 
的 距离 )。 我 们 可 以 假设 内 容 信 息 衰 减 方 式 是 zx“*, 其 中 xz 是 一 个 
大 于 等 于 1 的 参数 , 它 需 要 通过 实证 确定 ,对 信息 源 ,x“ 二 1。 如 
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果 我 们 取 x 二 e, 则 对 第 1 个 用 户 ,x“ 二 0.37,… ,以 此 类 推 。 


图 8-5 社交 网 络 中 内 容 信息 传播 路 径 的 串联 和 并 联 方式 

其 次 ,内 容 增强 或 减弱 也 会 影响 信息 强度 。 在 上 述 的 x“ 前 
面 ,我 们 定义 一 个 强度 转换 系数 ( 乘 子 )ax ,在 用 户 i, 如 果 用 户 只 是 
转发 了 相 邻 用 户 j 的 信息 , 则 设 a; ==1, 如 果 用 户 给 了 讲义 的 评论 
则 设 几 之 1, 如 果 用 户 给 了 贬义 的 评论 则 设 a 三 1, 其 中 ai 的 大 小 
根据 实证 结果 确定 。 

(3) 基础 模型 下-3( 权 威 用 户 : 用 户 影响 行为 模型 ) 。 

在 社会 网 络 中 ,用 户 所 在 网 络 中 所 处 的 位 置 和 周边 结构 的 不 
同 ,决定 了 它们 有 具有 不 同 的 角色 意义 ,如 图 8-6 所 示 。 那 么 不 同位 
置 .度数 不 同 的 用 户 所 掌握 ,控制 的 资源 能 力 和 数量 会 有 着 巨大 的 
差异 。 比 如 说 ,有 些 用 户 处 于 社交 网 络 中 的 核心 位 置 , 有 些 用 户 却 
处 于 社交 网 络 的 边缘 位 置 ,还 有 些 用 户 则 在 社交 网 络 中 扮演 着 
“ 桥 ? 的 角色 。 此 外 ,用 户 的 影响 力也 不 同 , 有 些 影 响 力 大 ,有 些 影 
响 力 小 。 因 此 ,对 于 企业 的 突 发 事件 与 情 信 息 管理 来 说 ,区 分 社交 
网 络 中 的 各 种 用 户 至 关 重要 。 

根据 社会 网 络 的 传播 特性 ,尤其 是 微 博 的 出 现 和 普及 ,不 仅 使 
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得 社会 网 络 中 的 信息 能 够 在 较 短 时 间 内 实现 较 大 范围 的 传播 ,也 
打破 了 传统 的 以 政府 为 主体 的 “ 单 级 ”信息 传播 控制 模式 。 

本 模型 给 出 4 个 企业 和 与 情 权 威 用 户 的 定义 ,并 提出 了 在 海量 
社交 网 络 中 识别 与 情 权威 用 户 的 模型 。 

第 1 个 模型 是 : 在 一 个 社区 中 ,具有 最 大 (k 个 ) 度 的 用 户 , 称 
为 权威 用 户 。 我 们 以 用 户 最 大 的 度 为 例 说 明 。 我 们 定义 用 户 i 的 
Ed, 为 与 该 用 户 直接 连接 的 用 户 数目 , 则 第 argmaxi di 个 用 户 为 
权威 用 户 。 在 去 掉 第 1 个 权威 用 户 后 ,第 2 个 权威 用 户 可 以 类 似 
得 到 ,依次 类 推 , 可 以 找到 前 &A 个 权威 用 户 。 这 是 在 社会 网 络 中 一 
般 的 定义 方法 。 

第 2 个 模型 是 : 在 某 个 单位 时 间 (m ,tr) 内 ,如 果 某 个 社区 中 
BSE Ck 个) 用户 发 布 的 信息 最 多 , 称 为 权威 用 户 。 我 们 以 某 用 户 发 
布 的 信息 最 多 的 用 户 为 例 说 明 。 设 用 户 i 发布 信息 数 为 W;, 则 第 
argmaxi W; 个 用 户 为 权威 用 户 。 在 实证 时 ,使 用 计算 机 很 容易 完 
成 上 述 统计 工作 , 即 如 果 在 L,=={ als, * ptos ža% 4 * rails, *, 
ts ) Qi(Sy， 关 1T， 关 ， 关 ， 尖 )|ai(sy x ,t,x,%,%)E 
A,iE{0,1,…,5) PiE n= |L, lino! WIR SIE fh EAA LL , n, 
的 最 大 , 则 称 * 为 权威 用 户 。 依 次 类 推 , 可 以 找到 前 & 个 权威 用 户 。 

第 3 个 模型 是 : 在 某 个 单位 时 间 内 ,如 果 某 个 社区 中 的 某 
(个 ) 用 户 发 布 的 信息 被 回复 .转发 或 评论 得 最 多 , 称 为 权威 用 户 。 
同 前 面 类 似 , 设 用 户 i 发 布 的 信息 被 回复 、 转 发 或 评论 得 最 多 ,其 
总 数 为 Wi WE argmax; W: 个 用 户 为 权威 用 户 。 在 实证 时 ,如 果 
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TE L, = (a; (ss * stos% 5 ¥ 5a; (Ss Fete Xs Dates 
ails, * strs ¥ 4% *) |a; (s, ¥ sty ¥ xx)EANEGE(0 ,15)) 
HI m= [Lol inzsave | 。 如 果 与 其 他 主体 相 比 ,zw 的 最 大 , 则 称 ;为 
权威 用 户 。 依 次 类 推 ,可 以 找到 前 个 权威 用 户 。 

第 4 个 模型 是 基于 回复 、 转 发 或 评论 内 容 的 ,但 涉及 情感 倾 
向 , 设 用 户 i 发 布 的 第 j 条 信息 被 回复 .转发 或 评论 的 情感 倾向 值 
为 Ws。 于 是 ,对 用 户 i 以 外 的 所 有 用 户 j ,经 过 衰减 作用 ay 后 ,用 
户 i 发 布 的 第 j 条 信息 的 实际 影响 强度 为 > ay Wa ,我 们 定义 用 户 


argmax Dya; Wy 为 权威 用 户 。 在 实证 时 ,如 果 在 L, 一 { als, * sto» 


% ,as ty), dass * ,tr x ,% ,x%)|a(s, 


* xy xx)EANEE{0,1 5)) 中 , 记 n = >) Cay tas + ay) 4 


果 与 其 他 主体 相 比 ,n, 的 最 大 , 则 称 s 为 权威 用 户 。 依 次 类 推 找 到 
前 & 个 权威 用 户 。 

显 见 , 第 1 种 定义 是 纯 基 于 网 络 结构 的 ,是 后 两 者 的 基础 。 一 
般 地 ,在 一 个 社区 中 一 个 度 不 是 很 大 的 用 户 , 很 难 成 为 被 回复 、 转 
发 或 评论 数目 最 高 的 几 个 用 户 。 第 2、3 种 是 基于 数量 的 ,第 4 种 
是 基于 内 容 的 。 其 中 第 3、4 种 要 求 比 较 严 格 , 即 如 果 要 认为 某 用 
户 是 权威 用 户 ,其 粉丝 必须 明确 “表态 ”, 即 回复 、 转 发 或 评论 。 

在 确定 了 权威 用 户 mw 后 ,我 们 可 以 研究 : 给 定 一 个 用 户 ,如何 
在 多 条 串联 、 并 联 路 径 中 ,确定 信息 由 m 至 4 的 关键 路 径 以 及 信息 
传播 到 5b 时 的 信息 衰减 程度 ,研究 m 对 5 的 影响 力 ,如 图 8-6 所 示 。 
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上 述 基 础 模型 主要 是 针对 社会 网 络 的 本 质 特征 和 用 户 基 础 行 
为 的 分 析 ,进一步 ,我 们 可 以 把 基础 模型 延伸 至 针对 企业 和 与 情 分 析 
的 特定 主题 中 ,提出 更 加 具体 可 行 、 针 对 性 更 强 的 衍生 模型 。 

1. 衍生 模型 A( 基 于 社会 网 络 金融 信息 情感 倾向 值 与 股市 波 
动 关联 分 析 ) 

基于 内 容 分 析 的 模型 [ -1, 我 们 可 以 研究 社会 网 络 金融 信息 
的 情感 倾向 值 与 上 市 公司 股票 价格 的 影响 机 制 。 通 过 收集 社会 网 
络 上 的 信息 ,观察 评论 的 情感 取向 对 企业 是 否 能 够 提供 满足 用 户 
需要 的 产品 和 服务 做 出 测评 ,并 对 企业 管理 中 的 业务 流程 、 成 本 结 
构 .销售 策略 提出 新 的 建议 。 

股价 的 波动 率 一 般 认 为 是 在 某 一 个 时 间 段 内 的 价格 的 方差 ， 
它 的 大 小 往往 意味 着 不 确定 性 和 风险 的 大 小 。 如 果 我 们 能 够 对 波 
动 率 进 行 预测 , 则 对 于 企业 及 其 投资 者 有 着 重要 的 意义 。 由 于 金 
融 市 场 的 波动 率 可 以 表现 为 一 个 时 间 序 列 ,其 当前 的 值 与 其 之 前 
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的 一 系列 值 以 及 外 界 变量 有 着 密切 的 关系 ,我 们 利用 SVM. H 
信息 情感 的 倾向 值 ( 其 中 询 为 正 值 , 贬 为 负 值 , 大 小 表示 褒贬 强 
度 ) ,探讨 金融 信息 情感 倾向 与 金融 市 场 波动 率 的 非 线性 关系 。 

对 全 网 的 与 情 分 析 ,我 们 可 以 研究 对 象 细 化 到 某 几 个 典型 的 
上 市 企业 ,并 将 与 情 分 析 的 数据 目标 改 为 社会 网 络 数据 。 具 体 地 
说 ,首先 ,针对 某 企业 建立 一 个 用 户 词典 ,并 在 金融 与 情 信 息 中 ,过 
滤 出 相应 的 上 市 公司 信息 。 随 后 ,可 以 引入 社会 网 络 的 情感 信息 ， 
定义 W 为 基于 社会 网 络 的 基于 模型 [ -1 的 情感 倾向 值 。 针 对 该 
企业 ,我们 将 重点 研究 W 的 分 析 算 法 。 本 模型 主要 涉及 用 户 ao 
a vaz as va, 相关 帖子 的 内 容 。W 的 分 析 算 法 的 目的 就 是 建立 一 
个 社会 网 络 帖 子 的 文本 信息 与 W 的 关系 。 我 们 的 具体 做 法 是 , 通 
过 已 有 的 成 熟 的 自然 语言 处 理 技 术 , 确 定 某 条 股市 信息 是 利好 还 
是 利空 ,并 从 用 词 中 确定 其 量度 大 小 ,并 根据 其 他 辅助 信息 例如 信 
息 长 度 , 得 其 强度 WW。 具体 地 说 , 令 在 时 间 ,在 社会 网 络 上 有 关 该 
企业 的 第 L 条 股市 信息 的 强度 为 W,,E[ 一 1, 十 1]。 对 于 利多 信 
息 , 令 Wi 二 0; 对 于 利空 信息 , 令 Wi 二 0。 利 多 利空 的 强度 由 
[Wil Wie © | Wi | 越 大 ,认为 利多 利空 的 强度 越 大 。 记 W, = 
之 W,。 于 是 我 们 得 针对 该 企业 的 网 络 金融 信息 流 时 间 序 列 。 

实验 表明 ,该 时 间 序 列 具有 一 定 的 季节 性 ,以 7 天 为 一 个 周 
期 ,所 以 我 们 做 7 阶 差分 消除 季节 性 。 我 们 还 观察 到 ,常常 地 在 一 
段 时 间 内 ,金融 信息 流 时 间 序 列 变化 相对 小 ; 而 后 变化 又 相对 大 。 

上 面 的 模型 可 以 给 我 们 提供 一 个 “政策 实验 室 ”, 研 究 该 企业 
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的 绩效 和 股价 的 关系 。 这 意味 着 如 果 该 企业 的 绩效 好 ,股价 就 会 
成 上 涨 趋势 ,否则 呈 下 降 趋势 。 企 业 可 以 利用 社会 网 络 的 金融 信 
息 时 间 序 列 ,适当 增加 利好 信息 ,减少 利空 信息 ,从 而 影响 在 线 
与 情 。 

2. 衍生 模型 B( 基 于 微 博 文本 内 容 的 全 新 突 发 事件 的 用 户 反应 ) 

本 模型 基于 内 容 分 析 的 模型 [-1 ,研究 基 于 微 博 的 全 新 突 发 
事件 发 现 问题 。 由 于 对 常规 的 反复 出 现 的 突 发 事件 的 用 户 反应 
学 者 们 已 经 提出 了 很 多 研究 模型 。 具 体 研究 时 ,可 以 不 求全 面 ,只 
研究 全 新 突 发 事件 的 用 户 反 应 及 相应 的 企业 与 情 管理 方法 。 

监控 企业 与 情 的 全 新 突 发 事件 ,我 们 只 要 把 《 突 发 事件 字典 》 
替换 成 4 企业 突 发 事件 字典 》 即 可 。 在 现实 中 ,对 特定 企业 ,也 会 出 
现 完全 意 想不到 的 突 发 事件 , 某 类 信息 ,在 微 博 上 开始 迅速 传播 。 
对 计算 机 文本 分 析 技 术 来 说 ,上 述 突 发 事件 ,一 般 是 不 好 放 入 事先 
给 定 的 用 户 词典 中 的 。 但 如 果 没 有 相应 技术 ,企业 与 情 管理 就 是 

一 个 只 会 识别 过 去 发 生 过 的 类 似 事件 ,不 能 对 全 新 事件 " 举 一 反 

三 ”进行 监控 的 “ 傻 孩 子 ”。 

本 模型 可 以 研究 用 户 在 企业 出 现 全 新 的 突 发 事件 情况 下 的 反 
应 ,提供 给 企业 管理 者 进行 决策 支持 。 它 通过 实时 监控 并 处 理 微 
博文 本 信息 ,可 以 自动 及 时 发 现 社交 网 络 中 包含 的 全 新 企业 突 发 
事件 ,并 及 时 利用 社会 网 络 , 增 加 正面 的 有 引导 性 的 信息 ,通过 其 
他 手段 联系 或 删除 负面 的 信息 ,从 而 借助 积极 的 操作 ,影响 在 线 和 与 
情 , 使 与 情 向 着 对 该 企业 有 利 的 方向 发 展 。 对 出 现 负面 的 信息 ,我 
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们 可 以 研究 企业 应 该 如 何 利用 在 线 与 情 进行 服务 挽回 等 管理 措 
施 ,并 进一步 研究 这 些 措 施 对 股市 的 影响 机 制 。 

由 于 对 微 博 等 社会 网 络 大 多 以 短文 本 的 形式 传播 ,我 们 可 以 
专门 研究 短文 本 条 件 下 的 企业 突 发 事件 的 与 情 管理 研究 。 

再 进一步 ,使 模型 B 结合 模型 A, 也 可 以 成 为 研究 社会 网 络 与 
上 市 公司 股价 关系 的 重要 手段 。 当 企业 出 现 全 新 突 发 事件 时 ,该 
企业 的 股价 都 会 出 现 相对 比较 剧烈 的 波动 。 

3. 衍生 模型 C( 用 户口 碑 主 导 网 络 中 企业 与 情 管理 优化 ) 

在 网 络 拓 扑 结 构 上 , 它 的 特点 是 ,粉丝 多 ,但 被 * 粉 ”也 同样 多 ， 
如 图 8-7 所 示 。 这 类 网 络 可 以 分 为 陌生 人 购物 分 享 网 络 , 例 如 蘑 
菇 街 、 美 丽 说 ,以 及 熟人 圈 社 交 网 络 , 例 如 微 博 .人 人 网 等 。 本 模型 
主要 涉及 用 户 的 所 有 动作 we 一 os。 在 用 户口 碑 主导 网 络 中 ,没有 
明显 的 权威 用 户 存在 ,其 特定 是 没有 度 突出 大 的 节点 ,很 大 比例 的 
节点 “影响 力 ” 比 较 均 衡 。 我 们 可 以 进一步 理 清 并 给 出 严格 定义 。 
显 见 , 它 基 于 模型 [[ -2。 


图 8-7 口碑 主导 网 络 
在 企业 与 情 优 化 管理 上 ,这 样 的 研究 探索 可 以 用 于 信息 传播 
最 大 化 和 广告 效果 的 计量 ,并 可 计算 出 在 社会 网 络 中 选取 哪些 用 
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户 播放 对 企业 最 有 利 的 信息 ,可 以 使 信息 得 到 最 大 化 的 传播 ,在 广 
告 投入 资金 固定 的 情况 下 ,可 以 帮助 企业 获得 最 大 的 收益 ,从 而 改 
善 了 营销 管理 。 

我 们 可 以 研究 怎么 在 这 类 网 络 中 ,以 较 小 的 成 本 ,完成 与 情 管 
理 任 务 。 这 实际 上 是 一 个 企业 与 情 管理 的 优化 问题 。 具 体 地 说 ， 
首先 ,管理 者 在 这 类 网 络 中 ,基于 模型 -1, 找 出 针对 某 类 信息 传 
播 的 关键 路 径 , 并 对 关键 路 径 上 的 节点 用 户 进行 “公关 ”, 建 立 友 好 
关系 .增加 正面 信息 ,经 常 转发 或 评述 与 企业 直接 和 间接 相关 的 信 
息 ,扩大 企业 品牌 效应 ,而 对 于 企业 的 负面 消息 ,力争 使 之 少 进行 
或 不 进行 扩散 ,或 使 之 进行 正面 引导 ,从 而 使 得 企业 与 情 对 该 企业 
有 利 , 从 而 做 得 “事半功倍” 的 效果 。 其 次 ,我 们 可 以 研究 社区 间 的 
“ 桥 ”, 并 对 其 用 户 进行 “公关 ”, 建 立 友 好 关系 ,为 企业 与 情 优化 管 
理 范围 。 

4. 衍生 模型 D( 社 会 网 络 瘾 分 析 ) 

我 们 可 以 使 用 管理 科学 中 定量 手段 ,结合 心理 学 研究 的 特点 ， 
研究 网 络 中 用 户 * 有 社会 网 络 (例如 微 博 ) 瘾 的 行为 特征 。 借 助 计 
算 机 ,在 社会 网 络 的 较 大 规模 数据 范围 内 ,分 地 理 区 域 .时 间 段 等 ， 
发 现 相 应 的 “ 瘾 ”用户 ,同时 对 具备 社会 网 络 瘾 特征 的 用 户 行为 特 
点 进行 定性 和 定量 的 分 析 , 得 出 这 类 用 户 在 企业 社会 与 情 传播 过 
程 中 的 作用 特点 ,从 心理 学 模型 角度 得 出 对 这 类 用 户 的 干预 和 管 
理 策略 ,并 探讨 在 企业 与 情 管理 中 的 应 用 。 

首先 ,我 们 定义 什么 是 社会 网 络 瘾 。 
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定义 (社会 网 络 瘾 ) : 在 给 定时 间 (z ,tr) 内 , 设 用 户 ;在 某 社会 
网 络 中 的 行为 序列 为 L, 二 {ai(s, * ,tos% 6% s* sails, * ots *, 
wo)ya(s * trys lass, * ot, ys JEA iE 
{0,1,…,5} ), 于 是 ,用 户 ;在 时 间 (w ,tr) 内 的 行为 的 总 数 是 |L, | 。 
如 果 |L,| > 刀 其 中 7 为 事先 给 定 的 常数 , 则 称 用户 * 有 社会 网 
络 瘾 。 

显 见 ,确定 wy 可 以 有 多 种 ,例如 ;与 时 间 段 长 度 tr 一 1。 有关。 
我 们 可 以 进一步 研究 并 给 出 严格 定义 。 

如 果 工 , 中 对 au 的 数目 大 于 ,其 中 为 事先 给 定常 数 , 则 认 
为 在 该 时 间 段 ,用 户 s 是“ 发帖? 较 多 。 

其 次 ,我 们 可 以 在 较 大 规模 的 数据 范围 内 ,分 地 理 区 域 .时 间 
段 等 ,分 别 统 计 并 研究 有 社会 网 络 瘾 用 户 的 比例 和 分 布 情况 ,得 出 
用 户 的 行为 特征 ,制订 相应 的 管理 策略 。 

本 模型 也 可 以 进一步 扩展 到 研究 对 用 户 更 细 化 的 情形 ,例如 ， 
不 同年 龄 .职业 的 用 户 的 社会 网 络 首 情 况 及 其 行为 特征 。 研 究 企 
业 在 与 情 管理 中 对 社会 网 络 瘾 情况 的 针对 性 管理 措施 。 

5. 衍生 模型 E( 根 据 用 户 对 特定 事件 的 反应 发 现 用 户 兴 趣 社区 ) 

我 们 设想 ,一 个 能 引起 一 类 人 和 群 强 烈 “ 共 鸣 ” 的 突 发 事件 ,应 
该 首先 在 其 社区 内 广泛 传播 ,到 一 定时 间 后 , 才 广泛 传播 到 社区 
外 。 例 如 ,婴儿 奶粉 忽然 查 出 了 问题 ,年轻 妈妈 群体 (社区 ) 会 首 
先 做 出 迅速 反映 。 所 以 ,对 G 包括 兴趣 子 网 Gi 的 社区 发 现 , 都 
只 是 一 个 静态 的 社区 发 现 ,并 没有 反映 出 一 个 动态 的 信息 “传播 
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速度 ”问题 。 曹 润 (2013) 通 过 实证 ,已 经 完成 了 一 个 对 新 浪 微 博 
的 预 研 。 

研究 企业 与 情 的 动态 传播 规律 ,对 企业 与 情 管理 有 重要 意义 。 
在 企业 出 现 了 不 可 控 的 突 发 事件 后 ,对 该 企业 感 兴趣 的 群体 会 迅 
速 在 社会 网 络 上 回复 、 转 发 或 评论 这 个 突 发 事件 。 如 果 企 业 能 够 
迅速 发 现 并 锁定 含 信息 源 的 社区 及 其 连接 外 部 的 桥 ( 见 模型 -3)， 
则 可 以 通过 公关 办 法 ,“ 断 掉 ” 这 个 桥 (因为 企业 不 可 能 断 掉 所 有 的 
用 户 之 间 的 连 线 ) ,从 而 以 较 低 成 本 、 大 规模 地 减低 信息 传播 的 速 
度 和 范围 。 


8.4 本 章 小 结 


本 章 是 本 书 的 核心 ,重点 讨论 了 基于 社会 网 络 结构 的 一 系列 
模型 。 具 体 地 说 ,本 章 提出 了 两 个 基于 社会 网 络 结构 的 基础 模 
型 , 即 基 于 社会 网 络 与 情 内 容 的 用 户 意 图 挖掘 模型 和 基于 用 户 关 
系 网 络 拓扑 及 用 户 在 信息 传播 中 行为 的 模型 。 在 此 基础 上 ,本 章 
研究 了 五 个 衍生 模型 ,包括 基于 社会 网 络 金融 信息 情感 倾向 值 与 
股市 波动 关联 分 析 模 型 .基于 微 博文 本 内 容 的 全 新 突 发 事件 的 用 
户 反 应 模型 ,用户 口碑 主导 网 络 中 企业 与 情 管理 优化 模型 .社会 
网 络 瘾 分 析 方 法 及 根据 用 户 对 特定 事件 的 反应 发 现 用 户 兴趣 社 
区 方法 。 
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1. 掌握 基于 社会 网 络 与 情 内 容 的 用 户 意图 挖掘 模型 。 

2. 掌握 基于 用 户 关系 网 络 拓扑 及 用 户 在 信息 传播 中 行为 的 
模型 。 

3. 熟悉 基于 微 博文 本 内 容 的 全 新 突 发 事件 的 用 户 反 应 等 衍 
ERR, 

4. 了 解 根据 用 户 对 特定 事件 的 反应 发 现 用 户 兴 趣 社区 方法 。 
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本 章 学 习 目 标 

。 了 解 问题 的 环境 和 解决 问题 的 思路 及 框架 。 
。 熟悉 社会 网 络 大 数据 的 分 解 模 型 。 

。 了 解 大 数据 领域 的 发 展 趋势 。 


9.1 问题 的 环境 和 解决 问题 的 思路 及 框架 


在 实际 中 ,社会 网 络 与 情 的 数据 量 非常 大 ,所 用 计算 机 的 内 存 
容量 常常 按 维 数 平方 增加 ,所 用 计算 机 机 时 常常 按 维 数 立方 增加 。 
如 果 能 将 这 些 数据 按 存储 地 点 ,存储 方式 分 解 成 若干 个 “ 子 问 
题 ",“ 子 问题 "在 相同 的 或 不 同 的 “去 "上 。 先 解决 这 些 子 问题 的 优 
化 和 决策 问题 ,每 一 个 子 问 题 相 当 于 一 个 “智能 代理 ”(intelligent 
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agent TA), HX IA 自行 解决 各 自 的 优化 和 问题 ,然后 再 综合 考 
虑 它们 之 间 的 关联 ,进而 解决 总 体 上 的 优化 和 决策 问题 。 也 就 是 
说 ,上 级 IA 给 出 指令 ,下 级 IA 完成 子 问题 的 优化 决策 。 这 样 总 体 
优化 和 决策 问题 ,就 变 得 相对 容易 些 了 。 

事实 上 ,解决 总 体 问题 的 "上 级 ?也 可 以 看 作 一 个 IA, 只 是 这 
个 IA 的 输入 是 下 级 的 优化 结果 ,输出 是 对 下 级 的 指令 。 

下 级 IA 完成 的 这 些 子 问题 的 优化 决策 问题 , 既 可 以 是 数值 型 
数据 ,也 可 以 是 文本 型 数据 ,还 可 以 是 图 像 .音频 .音像 数据 。 下 级 
IA 还 可 以 有 下 级 IA, 如 图 9-1 和 图 9-2 所 示 。 
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图 9-1 大 数据 系统 的 分 布 式 云 计算 思路 
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图 9-2 大 数据 系统 的 分 布 式 云 计 算 思路 


9.2 大 数据 的 分 解 模 型 


设 社会 网 络 大 数据 被 划分 成 C 个 子 模块 。 对 第 i 个子 模块 ， 
i 二 1,…,C,ui 为 对 第 i 个子 模块 的 输入 ,zi 为 由 其 他 子 模块 提供 
的 中 间 输 入 ,wi 为 对 第 i 个 子 模块 的 控制 变量 ,x; 是 子 模块 i 对 其 
他 子 模块 的 输出 ,y; 为 子 模块 的 输出 。 以 上 各 个 向 量 ,分 别 具 有 维 
数 mm mz My, Mz, smy 。 这 样 的 多 级 优化 如 图 9-3 和 图 9-4 所 示 。 

对 于 一 个 给 定 的 总 体 输入 向 量 u, 子 模块 可 用 下 述 向 量 方程 
描述 : 
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M 协调 器 
ER (总 体 优化 ) 
cm | Fee | J epee | | 子 模块 C 
( 子 问 题 优化 ) ( 子 问题 优化 ) ( 子 问题 优化 ) 
图 9-3 大 数据 的 分 解 算法 
ù Yi 
— 
P 第 ;个 子 模块 
— | —) 
i, 
图 9-4 第 i 个 子 模块 
子 模块 之 间 的 关联 如 下 : 


C 
zi = ee i=1,2,°,C 
JEH ray X m, Xm, 矩阵 ,表达 了 子 模块 之 间 的 耦合 
设 大 数据 的 目标 函数 是 加 性 可 分 的 ， 


Cc 
> fiis vis Xi) 


写成 拉 格 朗 日 函数 


cC 


=EN Cuz sti sxi) + Dat EAO sy vi +2; ) 一 


cC c 
T der lx. = dase] 
i=l j=1 
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其 中 ,yp 和 pi 分 别 为 ms 维和 ms 维 的 拉 格 朗 日 乘 子 向 量 。 设 这 些 
等 式 约束 都 是 独立 的 ,函数 f; 和 gi;(i 二 1,…,0) 都 是 连续 和 一 
连续 可 微 的 , 则 最 优 解 应 满足 下 列 必要 条 件 : 


aL IfilUis Visti) | IgiUi Vist) | 
Ixi Ixi Ox; Bi 


IL Of (us Uj sxi) 各、 内 Ee 


To: PA Jor 
c 
aL 
Jz A Sajo; 0 
zi 1 
9 
La Bi Uist sxi) — z; = 0 
Ipi 
c 
aL 
a Xi 2 asz, 0 


方程 组 形成 了 两 级 递 阶 结构 的 分 解 协调 算法 。 在 该 算 
法 中 ,上 级 和 下 级 之 间 不 断交 换 信息 ,下 级 子 模块 向 上 级 送出 反 
馈 变量 ,上 级 协调 器 根据 各 子 模块 来 的 反馈 变量 ,从 全 局 优化 的 
角度 出 发 向 下 级 给 出 协调 变量 ,进行 优化 迭代 ,最 后 达到 总 体 的 
最 优点 。 
在 上 述 变量 中 ,可 以 采用 不 同 的 变量 做 协调 作用 ,对 应 地 形成 
了 不 同 的 分 解 协调 算法 , 即 目标 协调 法 .模型 协调 法 .混合 协调 法 、 
三 级 分 解 协调 及 关联 预 估 法 。 
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9.3 网络 与 情 大 数据 面临 的 挑战 


显而易见 ,网 络 熏 情 大 数据 面临 着 很 多 挑战 。 

1. 大 数据 增加 了 解决 多 学 科 集 合 问题 的 难度 

威 瑞 森 通信 公司 的 迈克 … 博 迪 认 为 ,当下 我 们 面临 的 大 数据 
挑战 来 自如 何 有 效 管理 难以 想象 的 海量 数据 以 及 如 何 将 这 些 海 量 
数据 整合 成 我 们 所 需要 的 有 效 信息 ,而 不 只 是 机 酷似 的 玩弄 技巧 。 
事实 上 ,在 任何 一 个 数据 库 中 , 非 结构 性 数据 (图 片 . 声 音 和 视频 ) 
所 占 的 比例 都 越 来 越 高 ,数据 存储 量 从 早先 的 GB 已 经 发 展 到 了 
TB、PB 还 有 EB, 结 构 性 数据 在 美国 医疗 保健 大 数据 库 中 的 比例 
已 不 足 10% ,并 且 这 一 比例 还 在 急速 下 降 。 大 多 数 关联 子 数据 库 
的 语义 格式 并 不 兼容 ,因此 大 部 分 的 数据 分 析 仍 然 需要 人 工 , 这 是 
实现 以 大 数据 为 基础 的 “集成 问题 解决 方案 ”的 难点 所 在 。 

2. 海量 数据 增加 了 有 效 数据 的 使 用 难度 

当下 的 Web 3.0 时 代 是 “基于 数据 的 网 络 ? 时 代 , 互 联网 已 经 
成 为 一 个 超大 的 关系 型 数据 库 ,其 特征 表现 为 : 个 性 为 主 ; 强调 用 
户 体验 ; 良好 的 模块 制定 功能 ; 数据 整合 能 力 强 ( 周 珍妮 , 陈 莫 荣 ， 
2008) 。 据 统计 , 现 有 数据 网 络 含有 310 亿 个 RDF 三 元 组 ,其 中 
4000 多 万 个 RDF 连接 的 三 元 组 将 不 同 数据 元 之 间 的 数据 串 接 起 
来 。 这 些 数 据 中 政府 数据 占 41. 9%、 地 理 型 数据 占 19. 4%、 出 版 
和 媒体 类 数据 占 14.8% 以 及 生命 科学 数据 占 9.7%. 
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原始 的 大 数据 呈现 出 一 片 混乱 的 状态 。 从 事 数 据 工作 的 人 普 
遍 认为 80% 的 精力 都 用 在 了 数据 清理 上 ,正如 彼 特 ， 沃 登 在 其 著 
作 《 大 数据 词典 ) 中 所 言 :“ 我 可 能 花 更 多 的 时 间 整 理 那 些 杂 乱 的 
源 数据 ,而 不 是 直接 就 开始 分 析 数 据 。” 

数据 网 在 以 下 三 个 方面 为 数据 整合 和 大 数据 处 理 增 加 了 
难度 。 

(1) 通用 和 专 有 词汇 的 使 用 ,例如 人 ”“ 商 品 ” 这 一 类 常见 的 
表达 ,关联 数据 资源 是 可 以 借用 的 ,但 其 他 常见 表达 里 没有 的 词汇 
关联 数据 资源 需要 自 定义 。 借 用 更 多 广泛 运用 的 常见 表达 词汇 ， 
可 提高 不 同 数据 资源 的 通用 性 。 

(2) 不 同 格式 数据 对 同一 对 象 描述 的 认定 。 不 同 计算 机 语言 
之 间 对 同一 对 象 的 描述 可 能 是 不 同 的 ,应 用 程序 如 果 能 辨识 同一 
对 象 在 不 同 语言 中 的 表达 将 有 助 于 数据 集合 和 数据 清理 。 

(3) 由 于 媒介 平台 的 开放 性 , 自 媒体 时 代 人 人 都 在 发 布 资讯 ， 
大 部 分 的 互联 网 数据 都 是 垃圾 数据 ,因此 科学 评估 数据 质量 和 确 
定 有 价值 的 数据 子 集 也 是 一 大 挑战 。 

3. 大 数据 平台 需要 有 可 以 处 理 不 同 种 类 数据 的 数据 整合 技术 

Openlink 公司 的 首席 软件 设计 师 奥 瑞 ， 俄 凌 指 出 目前 人 们 已 
经 意识 到 了 智能 数据 处 理 的 前 景 , 但 现实 使 用 情况 几乎 还 是 空白 。 
类 似 现在 运用 的 OWL 语言 可 能 是 数据 融合 的 处 理 方式 之 一 ,但 
不 会 是 未 来 的 方向 。 目 前 的 关联 数据 和 RDF 在 数据 整合 技术 中 
占有 一 席 之 地 ,它们 的 国际 通用 性 强 , 且 为 无 预定 数据 模式 。 
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资源 描述 框架 (RDF) ,是 一 个 用 于 表达 关于 万 维 网 上 的 资源 
信息 的 语言 。 它 专门 用 于 表达 关于 Web 资源 的 元 数据 ,比如 Web 
页 面 的 标题 ,作者 、 修 改 时 间 以 及 Web 文档 的 版 权 和 许可 信息 , 某 
个 被 共享 资源 的 可 用 计划 表 等 。RDF 使 用 XML 语法 和 RDF 
Schema 来 将 元 数据 描述 成 为 数据 模型 。 数 据 对 资源 的 描述 是 与 
领域 和 应 用 相关 的 ,比如 对 一 本 书 的 描述 和 对 一 个 Web 站 点 的 描 
述 是 不 一 样 的 , 即 对 不 同 资源 的 描述 需要 采用 不 同 的 词汇 表 。 
个 RDF 文件 包含 多 个 资源 描述 ,而 一 个 资源 描述 是 由 多 个 语句 构 
成 ,一 个 语句 是 由 资源 .属性 类 型 .属性 值 构 成 的 三 元 组 ,表示 资源 
具有 的 一 个 属性 。RDF 规范 并 不 定义 描述 资源 所 用 的 词汇 表 , 而 
是 定义 了 一 些 规 则 ,这 些 规则 是 各 领域 和 应 用 定义 用 于 描述 资源 
的 词汇 表 时 所 必须 遵循 的 。 通 过 RDF, 人 们 可 以 使 用 自己 的 词汇 
表 描 述 任何 资源 ,由 于 使 用 的 是 结构 化 的 XML 数据 ,搜索 引擎 可 
以 理解 元 数据 的 精确 含义 ,使 得 搜索 变 得 更 为 智能 和 准确 。 


9.4 网络 与 情 大 数据 发 展 方向 的 展望 


1. 大 数据 的 应 用 领域 

1) 经 济 管理 

与 大 数据 相关 的 技术 为 经 济 管理 创造 价值 提供 了 重大 的 新 机 
遇 。 零 售 部 门 不 仅 记 录 下 每 一 笔 交 易 和 操作 ,还 记录 着 新 出 现 的 
数据 源 比 如 RIFD 芯片 ,可 追踪 货物 在 线 消费 者 的 行为 和 感情 表 
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H, 30 (BEE 7S: CH YS GS PY BE BEER OE ET KE 
报告 介绍 了 大 数据 技术 在 零售 业 、 制 造 业 中 的 应 用 及 其 对 整 条 行 
业 链 的 影响 (James et al. ,2011) 。 

(1) 零售 业 。 

事实 上 ,零售 业 通过 使 用 信息 技术 的 影响 力 获 利 的 做 法 已 经 
有 几 十 年 的 历史 。 比 如 ,在 美国 ,零售 终端 的 交易 数据 主要 从 条 形 
码 中 获得 。 条 形 码 在 20 世纪 70 年 代 首 次 出 现 ,20 世纪 90 年 代 之 

后 ,许多 大 型 零售 商都 开始 使 用 门市 层级 和 供应 链 的 数据 来 优化 

配送 和 物流 ,加 快 货物 规划 和 管理 ,升级 店铺 运营 。 比 如 沃尔玛 研 
发 的 "Retail Link” 可 以 让 供应 商 大 致 浏览 其 门店 ,了 解 什么 货品 需 
要 重新 进货 而 不 是 被 动 等 待 订单 。 这 种 “厂商 管理 存货 ”的 方法 是 
一 个 革新 性 的 概念 ,在 20 世纪 80 年 代 开 始 使 用 。 沃 尔 玛 尝试 不 
间断 的 管理 创新 方法 ,直接 和 间接 地 促使 了 整个 日 用 百货 行业 在 
20 世纪 90 年 代 的 生产 力 加 速 提升 ,如 仓储 式 格式 ,每 日 最 低 价 , 提 
Fh ae Fe ih BE ,鼓励 最 优 的 管理 和 技术 的 扩散 。 自 此 之 后 ,其 他 零售 
商 开 始 模仿 沃尔玛 ,以 保持 竞争 力 的 同时 ,整个 行业 的 生产 效率 随 
之 全 面 提升 。 

今天 ,领跑 者 们 正在 挖掘 消费 者 数据 ,为 从 管理 供应 链 到 推销 
和 定价 等 一 系列 问题 提供 决策 参考 。 消 费 者 数据 日 益 颗 粒状 ,这 
些 数 据 来 自 多 种 销售 渠道 商品 目录 商店、 在 线 互动 。 随 着 整个 
行业 对 大 数据 的 认识 的 加 深 , 零 售 商 将 大 数据 工具 应 用 到 运行 和 
供应 链 ,可 持续 降低 费用 ,不 断 创造 新 的 竞争 优势 和 策略 ,并 获得 
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更 大 的 效益 。 

(2) 制造 业 。 

制造 行业 是 大 数据 早期 的 和 重度 的 使 用 者 ,在 电脑 诞生 之 日 
就 开始 使 用 信息 技术 和 自动 化 技术 来 设计 、 制 造 和 配送 产品 ,目的 
是 提高 产品 质量 和 性 能 。 在 20 世纪 90 年 代 , 制 造 业 公司 获得 了 
惊人 的 年 度 生 产能 力 的 增长 ,因为 运行 的 改进 提升 了 制造 过 程 的 
效率 ,也 提高 了 制造 产品 的 质量 。 制 造 商 还 优化 了 全 球 运行 和 管 
理 ,将 产品 外 包 给 成 本 更 加 低廉 的 地 区 。 相 对 于 绝 大 多 数 行业 , 制 
造 业 相对 已 是 非常 高 效 ,但 是 大 数据 仍然 能 够 提供 另 一 波 重大 的 
制造 业 升 级 。 

2) 社会 管理 

当前 我 国 社会 处 于 经 济 快速 发 展 时 期 ,同时 也 凸显 各 种 社会 
矛盾 。 政 府 需要 收集 巨 量 数据 与 数 百 万 公民 打交道 ,绩效 的 表现 
也 是 参差 不 齐 。 面 对 大 数据 这 一 潜在 的 宝库 , 却 很 少 有 管理 者 主 
动 发 觉 所 拥有 的 信息 ,而 政府 往往 将 数据 保存 在 各 自 为 政 的 部 门 
中 。 政 府 部 门 是 否 可 以 通过 大 数据 的 应 用 提升 自己 的 生产 力 和 工 
作 效 能 呢 ? 麦肯锡 研究 了 欧盟 国家 的 政府 部 门 行政 管理 , 发现 大 
数据 的 应 用 工具 可 以 为 社会 管理 提供 有 效 的 策略 和 技巧 ,以 提升 
生产 力 、 提 高 效率 及 影响 力 。 欧 盟 政府 部 门 可 能 会 减少 15% ~ 
20% 的 行政 开支 ,创造 1500 ~ 3000 亿 欧 元 的 新 价值 ,大 数据 还 可 
以 在 未 来 10 年 中 将 年 度 增长 率 最 高 提高 0.5%。 

麦肯锡 全 球 研究 所 的 大 数据 研究 报告 显示 ,欧盟 国家 对 大 数 
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据 工具 的 应 用 可 以 从 四 个 主要 方面 推动 社会 管理 水 平 。 

(1) 实现 信息 透明 化 。 

若 政府 部 门 大 数据 库 的 数据 更 加 易 得 ,外 部 利益 相关 者 
(如 公民 和 企业 ) 以 及 内 部 利益 相关 者 (如 政府 雇员 和 政府 机 
构 ) 都 能 够 提高 自身 的 工作 效率 。 目 前 越 来 越 多 的 不 同 层级 的 
政府 部 门 开 始 引 入 “开放 数据 ”原则 ,允许 公众 获得 原始 政府 数 
据 。 这 样 的 努力 开启 了 海量 的 数据 创新 ,人 们 将 多 种 来 源 的 数 
据 结合 起 来 以 创造 类 似 “ 网 络 城 市 ”新 闻 , 记 录 在 某 个 特定 城市 
发 生 的 事件 。 

(2) 发 现 需求 .展现 差异 和 提高 绩效 。 

大 数据 的 重要 贡献 之 一 是 它 可 以 发 现 不 同 政府 机 构 在 行使 相 
似 职 能 时 呈现 出 的 巨大 绩效 差异 ,这 个 信息 对 在 机 构 内 提高 各 部 
门 的 执行 能 力 提 供 了 重要 的 机 遇 。 对 于 政府 部 门 这 类 外 部 竞争 压 
力 较 弱 的 组 织 , 凸 显 不 同 机 构 、 部 门 工作 绩效 可 以 带 来 内 部 竞争 、 

(3) 人 口 细 分 和 制定 政策 。 

麦肯锡 的 研究 报告 发 现 , 根 据 个 体 和 人 群 将 公共 服务 进行 细 
分 与 制定 能 够 提高 效率 、 效 果 和 公民 满意 度 。 同 样 ,政府 的 税收 部 
门 可 以 使 用 大 数据 对 个 人 和 企业 纳税 人 进行 分 割 ,比如 ,可 以 将 纳 
税 人 按照 地 理 、 守 信 记 录 、 违 约 风险 、 收 入 水 平等 特征 分 类 。 有 效 
的 分 割 可 以 将 潜在 征 缴 和 实际 征 缴 之 间 的 差距 缩小 10%, 同 时 更 
加 精准 的 互动 还 可 以 将 用 户 满意 度 提升 15%。 
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(4) 使 用 自动 计算 代替 或 辅助 人 为 决策 。 

大 数据 的 更 为 复杂 、 更 为 高 级 的 应 用 是 使 用 自动 算法 来 分 析 
大 数据 库 , 从 而 帮助 决策 者 判断 。 运 算法 则 能 够 从 多 种 源头 抓 取 
大 量 数据 ,识别 出 不 一 致 错误 和 虚假 信息 。 

3) 医疗 健康 

目前 ,医疗 系统 在 提高 运行 绩效 和 采用 科技 辅助 过 程 方 面 落 
后 于 其 他 许多 部 门 。 改 革 现 有 的 医疗 制度 ,削减 医疗 成 本 的 增长 
率 ,同时 还 要 维持 现 有 的 优势 ,这 是 全 球 各 个 国家 社会 和 经 济 共同 
面临 的 关键 问题 。 

鉴于 此 ,使 用 大 数据 作为 工具 ,将 会 为 生产 出 更 有 效 .更 加 经 
济 的 医疗 政策 .更 高 的 产品 和 服务 提供 新 的 商业 模式 。 根 据 麦 肯 
锡 的 预测 ,在 医疗 领域 具备 所 需 的 IT 和 数据 库 投 资 . 分 析 能 力 、 隐 
私 保护 以 及 适当 的 经 济 激励 机 制 的 情况 下 ,大 数据 的 使 用 将 在 10 
年 内 让 美国 的 医疗 市 场 获得 每 年 3000 亿美 元 的 新 价值 ,其 中 2/3 
以 全 国医 疗 开 支 的 削减 形式 出 现 。 

美国 以 及 欧盟 在 临床 .支付 与 定价 、 研 究 与 开发 .公共 健康 等 
领域 中 已 经 涌现 出 多 种 大 数据 技术 ,能够 利用 医疗 部 门 中 已 有 或 
可 能 获得 的 海量 电子 信息 提高 医疗 系统 的 效率 和 效果 。 

(1) 临床 。 

在 临床 方面 ,如 果 采 取 结 果 导 向 的 疗效 比较 研究 ,可 以 通过 分 
析 详 尽 的 患者 和 治疗 结果 信息 ,比较 不 同方 案 的 效率 ,从 而 决定 针 
对 特定 患者 的 最 佳 治疗 方案 。 推 行医 疗 比较 系统 ,很 有 可 能 减少 
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过 度 医 疗 和 处 理 不 足 的 发 生 率 , 这 两 者 都 会 致使 患者 状况 恶化 以 
及 产生 更 高 昂 的 长 期 治疗 费用 。 

临床 决策 支持 系统 可 以 提高 手术 及 医嘱 录入 系统 的 效率 和 质 
量 。 通 过 使 用 医嘱 录入 系统 ,医疗 服务 提供 机 构 能 够 减少 不 良 反 

应 ,降低 错误 治疗 和 民事 诉讼 的 比率 ,特别 是 降低 医疗 事故 的 发 

(2) 支付 与 定价 。 

自动 化 系统 可 以 识别 欺诈 ,并 核实 支付 者 补贴 申请 的 一 致 性 
和 准确 性 。 同 时 ,基于 真实 患者 治疗 效果 数据 ,使 用 卫生 经 济 学 和 
效果 研究 的 定价 方案 ,可 以 实现 公平 的 经 济 补偿 。 

(3) 研究 与 开发 。 

在 制药 的 子 领域 ,大 数据 工具 可 以 提高 研发 的 生产 力 。 它 们 
可 以 共同 创造 高 于 1000 亿美 元 的 价值 ,其 中 1/4 的 形式 为 更 低 的 
国家 医疗 保险 费用 。 有 具体 的 大 数据 工具 包括 预测 模型 .统计 工具 
和 算法 式 改 善 临床 试验 设计 、 分 析 临 床 试验 数据 .个 性 化 药物 以 及 
分 析 疾 病 模式 等 方法 。 

(4) 公共 健康 。 

大 数据 的 应 用 能 够 改善 公共 健康 监视 和 反馈 。 通 过 使 用 全 国 
范围 的 患者 和 治疗 数据 库 , 负 责 公 共 健 康 的 政府 部 门 能 够 保证 快 
速 .协调 地 发 现 传染 性 疾病 ,全 面 监视 疾病 爆发 ,制订 完整 的 疾病 
监测 和 反应 计划 。 
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2. 网 络 与 情 大 数据 发 展 方向 的 展望 

1) 探索 基于 云 计算 和 大 数据 结合 的 最 优 方案 

半 个 世纪 信息 技术 的 发 展 ,我 们 主要 解决 的 是 云 计算 中 “ 结 
构 性 ”数据 的 存储 、 处 理 与 应 用 。“ 结 构 性 ”数据 的 最 主要 的 特征 是 
逻辑 性 强 , 每 个 “ 因 ” 都 有 “ 果 ”。 然 而 现实 社会 中 大 量 数据 事实 上 
没有 显现 性 的 因果 关系 ,如 一 个 时 刻 的 交通 堵塞 ,天气 状态 .人 的 
状态 (心理 与 物理 ) 等 , 它 的 特征 是 随时 ,海量 与 弹性 ,如 一 个 突变 
天 气 分 析 包 含 会 有 几 百 个 PB 数据 。 而 一 个 社会 事件 如 乔布斯 去 
世 瞬 间 所 产生 在 互联 网 上 的 数据 ( 微 博 、 纪 念 、 文 章 、 视 频 等 ) 也 是 
突然 爆发 出 来 。 大 数据 时 代 就 是 这 样 一 个 以 PB 为 单位 的 结构 与 
非 结 构 数 据 信 息 组 成 的 包含 社交 网 络 、 电 子 商 务 与 移动 通信 等 体 
系 的 互联 网 时 代 。 

大 数据 的 一 个 特点 就 是 海量 。 海 量 的 数据 需要 足够 存储 来 容 
纳 它 ,快速 低廉 价格 `. 绿 色 的 数据 中 心 部 署 成 为 关键 。 近 几 年 , 谷 
ik , Facebook „Rackspace 等 公司 都 在 纷纷 建设 新 一 代 的 数据 中 心 ， 
大 部 分 都 采用 更 高 效 、 节 能 、 定 制 化 的 云 服 务 器 ,用 于 大 数据 存储 、 
挖掘 和 云 计算 业务 。 海 量 数据 ,就 是 大 数据 和 云 计算 的 交集 。 

云 计算 中 的 大 数据 有 几 个 核心 要 素 ,如 数据 在 云端 的 集合 与 
分 享 . 个 人 数据 的 无 颖 连接 (随时 、 随 地 、 同 步 ) 以 及 数据 的 跟踪 分 
析 和 挖掘 。 一 方面 由 于 云 计算 拥 有 可 以 弹性 扩展 以 及 相对 便宜 的 
存储 空间 和 计算 资源 的 特点 ,中 小 企业 、 机 构 也 可 以 通过 云 计 算 完 
成 大 数据 的 分 析 ; 另 一 方面 云 计 算 IT 资源 庞大 、 分 布 较为 广泛 ， 


第 9 章 社会 网 络 与 情 大 数据 的 分 解 算法 Naas 


是 异 构 系统 较 多 的 组 织 及 时 准确 处 理 数据 的 有 力 方式 。 云 计算 与 
大 数据 的 关系 是 两 个 方向 , 云 计算 可 以 承载 大 数据 ,大 数据 也 是 可 
以 通过 云 计算 架构 和 模型 来 提供 解决 方案 。 也 就 是 说 ,大 数据 在 
管理 和 应 用 的 方向 上 ,可 以 通过 云 计 算 的 资源 共享 、 高 可 扩展 性 、 
服务 特性 来 搭建 和 运营 。 

然而 , 随 着 非 结构 化 数据 比例 的 增加 ,传统 为 结构 化 数据 存储 
而 设计 的 存储 系统 ,已 经 无 法 应 付 云 平台 系统 庞大 的 数据 存储 需 
求 。 云 存储 服务 中 ,这 些 数据 保存 成 本 高 昂 , 它 们 的 移动 ( 存 人 及 
取 回 ) 也 存在 很 大 的 困难 。 如 何 解决 不 同 的 云 存储 环境 中 结构 
化 、 非 结构 化 数据 的 处 理 和 应 用 问题 ,怎样 为 这 类 问题 提出 优化 
的 ,可行 的 技术 与 管理 方案 ,已 经 成 为 大 数据 决策 研究 的 重点 
A 

2) 探寻 大 数据 内 部 关联 和 挖掘 的 新 方法 

如 果 说 大 数据 与 云 计算 的 交集 是 外 部 交集 ,那么 大 数据 内 部 
的 关联 ,挖掘 , 则 是 大 数据 的 大 内 涵 , 这 个 调整 远 远 超 过 云 计算 的 
应 用 难度 ,数据 与 数据 的 复杂 关系 ,比如 路 应 用 系统 的 结构 化 数据 
与 非 结 构 化 数据 的 关联 ,海量 数据 的 存储 以 及 数据 在 人 之 间 的 分 
享 ,数据 (结构 化 与 非 结 构 化 ) 与 业务 和 决策 间 的 关联 等 。 

解决 这 个 问题 的 一 个 思路 是 EMC 提出 的 信息 生命 周期 思 

想 ,信息 生命 周期 管理 作为 一 种 信息 管理 模型 ,认为 信息 有 一 
从 产生 保护 、 读 取 、 更 改 、 迁 移 、 存 档 、 回 收 的 周期 、 再 次 激活 以 及 

退出 的 生命 周期 ,对 信息 进行 贯穿 其 整个 生命 的 管理 需要 相应 的 
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策略 和 技术 实现 手段 。 信 息 生 命 周 期 管理 的 目的 在 于 帮助 企业 在 
信息 生命 周期 的 各 个 阶段 以 最 低 的 成 本 获得 最 大 的 价值 。 但 是 ， 
在 很 多 业界 同行 看 来 ,这 个 思想 在 云 计算 和 大 数据 时 代 需 要 真正 
的 升华 ,而 这 个 方向 就 是 智能 ,不 是 单一 和 局 部 的 ,而 是 统一 的 
智能 

作为 国内 崛起 的 新 兴 代 表 , 爱 数 则 提出 了 智能 数据 管理 解决 
方案 ,也 是 基于 统一 智能 和 信息 生命 周期 思想 的 框架 。 无 疑 ,这 是 
一 种 新 的 思路 ,这 种 统一 的 框架 采用 云 计算 体系 结构 ,主要 技术 突 
破 在 资源 池 化 和 法 规 管理 遵从 ,从 数据 生成 阶段 就 将 大 数据 纳入 
到 生命 周期 管理 中 ,通过 统一 的 智能 策略 , 既 提 供 了 很 好 的 运 维 和 
保护 ,也 能 在 使 用 和 挖掘 阶段 与 业务 应 用 结合 起 来 ,提供 统一 的 数 
据 信息 平台 。 大 数据 内 部 的 关联 和 挖掘 问题 是 大 数据 未 来 发 展 道 
路 上 的 一 个 挑战 , 若 能 击破 这 个 问题 ,这 将 会 是 我 们 在 大 数据 的 研 
究 与 应 用 上 质 的 飞跃 。 

3) 探索 大 数据 复杂 性 、 不 确定 性 特征 描述 的 刻画 方法 

数据 内 部 关系 的 复杂 性 以 及 不 确定 性 给 大 数据 特征 的 描述 带 
来 挑战 。 对 于 一 个 复杂 数据 ,如 文本 ,视频 ,图 像 ,或 者 生物 实验 数 
据 , 人 们 需要 从 不 同 的 角度 去 诠释 这 样 的 数据 。 例 如 ,在 网 页 数据 
中 既 有 关于 内 容 的 文本 属性 ,也 有 指向 这 个 网 页 的 链接 属性 。 同 
时 大 数据 不 确定 性 较 强 的 特点 ,也 给 数据 特征 的 描述 与 刻画 增加 
了 难度 。 

数据 分 析 家 们 已 经 有 了 这 样 的 共识 , 那 就 是 以 前 的 单 维 聚 类 
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方法 不 再 适合 大 数据 的 多 样 性 特征 。 有 学 者 提出 多 维 聚 类 分 析 方 
法 ,通过 对 单 维 聚 类 问题 的 扩展 ,为 复杂 数据 提供 了 一 种 新 的 探索 
性 分 析 的 方式 。 多 维 聚 类 也 只 是 在 大 数据 划分 上 提出 的 思路 ,对 
于 大 数据 有 效 、 明 确 清晰 的 挖掘 和 诠释 方法 还 需要 人 们 继续 的 

4) 研究 大 数据 时 代 对 管理 决策 的 影响 

随 着 世界 开始 迈 向 大 数据 时 代 , 社 会 也 将 经 历 类 似 的 地 过 运 
动 。 在 改变 我 们 许多 基本 的 生活 和 思考 方式 的 同时 ,大 数据 早已 
在 推动 我 们 去 重新 考虑 最 基本 的 准则 ,包括 怎样 进行 管理 与 决策 。 
在 一 个 可 能 性 和 相关 性 占 主 导 地 位 的 世界 里 ,专业 性 变 得 不 那么 
重要 了 。 专 家 行业 不 会 消失 ,但 他 们 必须 与 数据 表达 的 信息 进行 
博弈 。 大 数据 的 背景 下 ,直觉 的 判断 往往 被 迫 让 位 于 精准 的 数据 
分 析 , 这 将 迫使 人 们 调整 在 管理 .决策 .人 力 资源 和 教育 方面 的 传 
统 理念 。 

从 2004—2012 年 间 担任 美国 统计 局 和 商务 部 的 高 级 顾问 胡 
善 庆 ,指出 一 些 国家 已 开始 建造 有 关 就 业 .教育 和 公共 卫生 的 公众 
纵向 数据 计划 。 这 些 计 划 虽 在 不 同 的 发 展 阶段 并 且 仍然 具有 很 强 
的 挑战 性 ,但 它们 提供 了 在 大 数据 时 代 建 造 和 维持 广泛 .详细 动态 
统计 系统 是 可 行 的 这 一 令 人 鼓舞 的 消息 。 大 数据 不 只 是 反映 现代 
科技 进步 对 改善 统计 计算 的 需求 , 它 是 向 传统 统计 专业 的 一 场 挑 
战 ,并 要 鼓舞 创新 思维 和 发 展 的 一 场 大 革命 。 
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9.5 本 章 小 结 


大 数据 不 仅 增加 了 解决 多 学 科 集 合 问题 的 难度 ,加 大 了 有 效 
数据 的 使 用 难度 ,而 且 大 大 提高 了 不 同 种 类 异 质数 据 的 整合 难度 。 
本 章 提出 了 问题 的 环境 和 解决 问题 的 思路 及 框架 ,研究 了 大 数据 
的 分 解 模 型 ,展望 了 网 络 与 情 大 数据 发 展 方向 。 


思考 题 


1. 熟悉 解决 问题 的 环境 和 解决 问题 的 思路 及 框架 。 
2. 掌握 大 数据 分 解 模型 的 基本 思路 。 
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本 章 学 习 目 标 


。 了 解 社会 网 络 下 C2B 营销 的 实现 及 其 对 企业 业绩 的 影响 。 
。 熟悉 企业 的 社会 网 络 个 性 化 信息 推荐 等 企业 和 与 情 管理 方法 


章 在 前 面 基础 模型 和 衍生 模型 的 基础 上 ,通过 对 模型 的 多 
种 组 合 , 得 出 针对 企业 在 社会 网 络 大 数据 环境 下 的 与 情 具 体 管 理 


方法 与 策略 ,力图 解决 目前 企业 在 新 型 社会 网 络 大 数据 环境 下 遇 
到 的 与 情 管理 方法 的 几 个 典型 问题 。 


10.1 社会 网 络 下 C2B 营销 的 实现 及 其 对 
企业 业绩 的 影响 


B2C(business to customer) 是 由 企业 到 消费 者 的 传统 营销 模 
式 , 而 C2B 正好 与 之 相反 , 即 C2B 是 从 消费 者 到 企业 的 商务 行为 。 


在 传统 的 互联 网 下 ,对 众多 的 互 不 相识 的 用 户 ,要 完成 C2B 商业 行 
为 ,是 难以 想象 的 。 只 有 在 Web 2.0 环境 下 的 社会 网 络 中 ,用 户 个 
体 之 间 以 及 用 户 和 企业 之 间 的 交互 才能 够 得 以 实现 ,也 正 是 这 种 
环境 才 成 就 了 C2B 的 企业 番 利 模式 。 

显然 ,在 传统 环境 下 ,如 果 一 个 用 户 向 企业 定制 一 件 特殊 的 、 
但 企业 尚未 生产 的 “个 性 化 ”产品 时 ,企业 需要 为 此 进行 专门 的 设 
计 和 生产 ,从 而 显著 增加 了 制造 单 件 产品 的 生产 成 本 ,导致 了 销售 
价格 昂贵 ME C2B 模式 下 ,通过 汇聚 具有 相似 或 相同 需求 的 消 
费 者 ,形成 一 个 特殊 群体 ,一 大 批 用 户 一 起 定制 某 个 特殊 产品 ,就 
会 使 得 单个 产品 的 生产 成 本 下 降 , 同 时 消费 者 经 过 集体 议价 ,也 可 
以 达到 消费 者 购买 数量 越 多 ,价格 相对 越 低 的 目的 (对 已 有 产品 的 
C2B 营销 模式 称 为 传统 网 络 团购 ,因此 传统 网 络 团 购 只 是 C2B 营 
销 模式 的 一 种 ) 。 

因此 企业 需要 及 时 发 现 和 了 解 在 社会 网 络 中 ,由 于 对 某 件 未 生 
产 的 产品 感 兴趣 而 逐渐 聚集 的 团体 。C2B 企业 可 以 使 用 模型 T-1 
对 用 户 情感 进行 监控 ,还 可 以 加 入 讨论 ,并 进行 企业 与 情 管理 的 
优化 。 

以 消费 者 为 中 心 .消费 者 参与 设计 与 生产 、 由 消费 者 主导 等 属 
于 是 C2B 营销 模式 的 主要 特征 ,其 本 质 特 征 是 先 有 消费 者 需求 ,后 
有 企业 设计 并 生产 。C2B 的 经 济 关 系 被 视 为 是 一 种 逆向 的 商业 模 
式 ,能够 通 往 大 众 的 双向 交流 人 际 网 络 使 得 这 种 类 型 的 商业 关系 
变 得 可 能 。 在 C2B 的 企业 盘 利 模式 下 ,企业 生产 和 运作 的 上 下 游 


第 10 章 PWHEMBSAB SRA 


关系 倒 了 过 来 ,消费 者 由 下 游 变 成 了 上 游 ,成 为 企业 的 “龙头 "和 
“风向 标 ”。 

这 种 基于 社会 网 络 的 新 的 C2B A Al ESR REM SE E HE I R a 
潜在 进入 者 .替代 品行 业内 竞争 等 都 产生 了 巨大 的 影响 ,供应 商 、 
渠道 建设 、 信 息 流 、 资 金 流 也 有 着 自身 的 新 特点 ,相应 的 营销 管理 、 
客户 关系 管理 .生产 管理 ,信息 管理 .财务 管理 都 需要 在 广义 企业 
与 情 管 理 的 驱动 下 随 之 创新 。 


10.2 企业 的 社会 网 络 个 性 化 信息 推荐 


社会 网 络 个 性 化 信息 推荐 可 以 分 为 用 户 之 间 的 信息 推荐 、 以 
及 企业 对 用 户 的 信息 推荐 。 管 理 者 可 以 和 发 现 的 权威 用 户 建立 友 
好 关系 ,经 常 转发 或 评述 与 企业 直接 和 间接 相关 的 信息 ; 而 对 于 
企业 的 负面 信息 ,力争 使 关键 用 户 的 邻居 少 进行 或 不 进行 扩散 ,使 
得 企业 与 情 对 该 企业 有 利 , 从 而 达到 “四 两 氢 千斤 ”的 效果 。 

社会 网 络 中 潜藏 着 用 户 之 间 的 信任 关系 ,用 户 之 间 的 连接 关 
系 的 强 弱 反映 了 用 户 之 间 信 任 关系 的 强 弱 ,从 某 种 意义 上 也 说 明 
推荐 中 潜藏 着 用 户 之 间 信 息 传 播 的 路 径 , 这 个 路 径 要 比 其 他 的 行 
为 路 径 关系 更 快捷 .更 有 目的 性 。 因 此 ,挖掘 社会 网 络 中 的 个 性 化 
推荐 行为 之 间 的 联系 ,必然 能 寻找 出 用 户 及 用 户 群 体 之 间 的 深层 
次 的 依赖 关系 。 

除了 有 效 的 监测 和 捕获 与 情 外 ,对 于 掌握 与 情 的 发 展 过 程 以 
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及 对 与 情 的 引导 和 堵截 也 很 重要 (Tian 和 Liu,2014) ,这 需要 企业 
掌握 社会 网 络 的 结构 上 的 特性 。 在 社会 网 络 中 ,企业 也 可 以 通过 
挖掘 用 户 之 间 的 信息 推荐 等 行为 ,来 挖 气 出 用 户 是 通过 怎样 的 路 
径 、 哪 些 用 户 、 哪 些 方式 来 传播 信息 ,这 对 于 企业 社会 网 络 与 情 的 
管理 是 非常 有 必要 的 。 


10.3 社会 网 络 大 数据 环境 下 企业 的 
开放 式 信用 管理 


在 社会 网 络 大 数据 环境 下 ,企业 的 信用 开放 式 管理 问题 不 同 
于 传统 环境 下 的 企业 信用 管理 。 社 会 网 络 大 数据 环境 下 的 企业 关 
于 用 户 信用 资源 的 获取 渠道 更 加 广泛 ,数据 量 也 更 加 庞大 。 同 时 ， 
企业 与 用 户 之 间 的 交流 也 更 加 密切 ,因此 需要 建立 新 的 信用 管理 
与 评估 机 制 , 对 用 户 在 社会 网 络 大 数据 环境 下 的 开放 信用 信息 进 
行 抽取 和 评估 。 

在 社会 网 络 大 数据 环境 下 ,通过 建立 基于 企业 社会 网 络 与 情 
的 社会 网 络 信誉 平台 ,用 户 的 信用 信息 主要 来 源 于 用 户 在 社交 网 
络 中 相应 行为 的 开放 式 获取 ,包括 用 户 的 关注 主题 倾向 与 用 户 的 
动态 交互 评估 。 

在 研究 中 ,我 们 可 以 利用 用 户 的 社区 发 现 模型 (模型 T-1) 和 
社会 网 络 与 情 计 算 中 的 用 户 影 响 行为 模型 (模型 T-3) ,来 对 用 户 
在 社会 网 络 大 数据 环境 下 的 信用 问题 进行 分 析 , 得 出 企业 在 社会 
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网 络 大 数据 环境 下 对 用 户 信用 信息 的 最 佳 管理 方案 ,提升 企业 传 
统 信用 管理 的 效率 ,降低 管理 成 本 。 


10.4 ”社会 网 络 大 数据 环境 下 针对 在 线 熏 情 服 务 
挽回 管理 措施 对 企业 绩效 影响 评估 


实践 中 主要 有 两 个 做 法 : 一 是 及 时 发 现 用 户 抱怨 产品 或 服务 
信息 ,通过 企业 客服 的 在 线 交流 ,满足 用 户 的 退换 货 要 求 , 并 在 网 
络 上 及 时 把 处 理 结 果 公 布 , 从 而 提高 企业 信誉 度 和 可 信和 度 ,进一步 
提高 企业 利润 。 二 是 发 现 负面 与 情 ,例如 高 管 被 带 走 ,及 时 发 布 企 
业 正 面 的 积极 响应 信息 ,将 企业 公众 形象 减少 到 最 低 ,企业 经 济 损 
失 减 少 到 最 小 。 

社会 网 络 大 数据 环境 下 的 与 情 管理 措施 对 企业 绩效 的 影响 ， 
需要 通过 对 企业 实施 与 情 管理 前 后 的 绩效 评估 变化 来 进行 分 析 。 
不 同 于 传统 的 绩效 评估 方法 ,基于 社会 网 络 环境 下 企业 的 绩效 评 
佑 还 应 该 包含 企业 网 络 声誉 (与 情 ) 以 及 企业 的 网 络 价值 评估 等 ， 
这 些 方 面 的 绩效 评估 策略 可 以 利用 我 们 已 有 的 用 户 动态 行为 和 影 
响 行 为 模型 (模型 下) ,结合 企业 原 有 的 绩效 评估 方法 进行 定量 的 
分 析 。 同 时 ,为 了 能 够 有 效 地 探讨 优化 后 的 在 线 与 情 管理 方法 对 
企业 绩效 的 影响 ,我 们 还 可 以 在 企业 绩效 的 特定 考核 上 设置 与 情 
绩效 的 监控 点 ,对 比 不 同 的 组 合 优化 方法 导致 的 企业 绩效 的 定量 
变化 ,以 找到 在 线 奥 情 管理 与 企业 绩效 的 交互 机 制 。 那 么 ,不 同类 
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型 的 企业 就 可 以 得 出 不 同 的 优化 算法 (参数 与 模式 匹配 后 ) 上 ,得 
出 更 加 符合 自身 的 最 佳 与 情 管理 策略 的 优化 组 合 , 实 现 企 业 与 情 
管理 的 效益 最 大 化 。 

当 和 与 情 发 生 后 ,社会 网 络 中 的 少量 的 用 户 将 信息 传递 给 更 多 
用 户 , 造 成 与 情事 件 消息 的 进一步 扩散 和 关注 度 迅速 升温 。 根 据 
模型 ,我 们 可 以 对 企业 与 情 的 传播 内 容 进行 分 析 , 包 括 分 析 传 播 
内 容 的 情感 倾向 性 。 利 用 模型 ,我 们 还 可 以 对 这 些 少 量 信 息 的 
传播 范围 和 路 径 进行 分 析 , 找 出 传播 最 快 的 社区 及 关键 路 径 。 采 
取 公 关 措 施 ,阻止 坏 的 消息 传播 ,推动 好 消息 的 传播 。 在 关键 路 
径 上 、 权 威 用 户 处 播放 有 利于 企业 的 消息 ,完成 企业 的 与 情 处 置 。 


10.5 社会 网 络 大 数据 环境 下 企业 和 与 情 管理 
方法 及 其 对 在 线 和 与 情 的 影响 


企业 与 情 管理 既是 企业 在 社会 网 络 大 数据 环境 下 ,通过 技术 
手段 针对 开放 式 网 络 与 情 按照 企业 目标 进行 控制 的 过 程 , 也 是 企 
业内 部 管理 过 程 在 网 络 与 情 的 作用 下 自主 改变 和 演变 的 过 程 。 
因此 ,企业 与 情 管理 和 在 线 与 情 间 是 一 个 相互 影响 相互 改变 的 

在 企业 对 与 情 管理 的 方法 方面 ,可 以 按照 与 情 的 事态 特征 分 
为 日 常 与 情 管理 和 突 发 与 情 管理 。 基 于 模型 T-1, 通 过 对 开放 网 
络 的 实时 信息 抽取 ,实现 对 于 与 情 的 实时 发 现 。 对 于 日 常 与 情 , 结 


第 10 章 PWHEMBSABERAA 


合 基 于 社会 网 络 拓展 的 施 拉 姆 理论 的 奥 情 处 置 管理 方法 ,根据 模 
型 ,对 日 常 与 情 采 用 引导 管理 模式 ,进行 内 容 提 取 和 和 与 情 引 导 ， 
并 按照 内 容 将 其 反馈 并 进入 企业 内 部 管理 流程 ,通过 管理 ,使 得 日 
常 与 情 能 够 对 企业 经 营 绩效 产生 正面 影响 。 对 于 突 发 与 情 ,结合 
基于 社会 网 络 拓展 的 生命 周期 理论 的 与 情 处 置 管理 方法 ,根据 模 
型 开 找 出 社会 网 络 中 的 社区 ,传播 的 关键 路 径 、 权 威 用 户 等 ,确定 
与 情 传播 方向 和 爆发 .影响 范围 ,启动 应 急 响应 机 制 ,使 企业 对 突 
发 与 情 采 用 的 措施 更 具有 针对 性 ,更 能 优化 步骤 。 然 后 ,结合 基于 
社会 网 络 拓展 的 价值 累加 理论 ,实施 关键 用 户 控制 ,在 关键 信息 披 
Be .关键 时 点 管控 ,关键 群体 影响 等 方面 ,使 得 企业 能 进行 更 有 效 
的 与 情调 节 和 控制 ,以 实现 与 情 对 企业 经 营 和 业绩 的 最 小 冲击 , 实 
现 企业 管理 和 绩效 与 在 线 与 情 的 良性 互动 。 


10.6 RANA 


本 章 讨 论 了 社会 网 络 下 C2B 营销 的 实现 及 其 对 企业 业绩 的 
影响 ` 企 业 的 社会 网 络 个 性 化 信息 推荐 .社会 网 络 大 数据 环境 下 
企业 的 开放 式 信 用 管理 社会 网 络 大 数据 环境 下 针对 在 线 和 与 情 
服务 挽回 管理 措施 对 企业 绩效 影响 评估 及 社会 网 络 大 数据 环 
境 下 企业 与 情 管 理 方法 及 其 对 在 线 和 与 情 的 影响 等 企业 与 情 管 
理 方法 。 
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1. 举例 说 明 社会 网 络 下 C2B 营销 的 实现 及 其 对 企业 业绩 影 
响 的 应 用 。 
2. 举例 说 明 企业 的 社会 网 络 个 性 化 信息 推荐 的 应 用 。 
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本 章 学 习 目 标 
。 了 解 企 业 社会 网 络 与 情 给 企业 管理 的 挑战 。 
。 了 解 企 业 在 社会 网 络 大 数据 环境 下 的 与 情 管理 应 对 策略 。 


11.1 企业 社会 网 络 与 情 给 企业 管理 的 挑战 


随 着 Web 2.0 技术 的 广泛 发 展 与 应 用 ,网 络 用 户 日 益 成 为 网 
络 内 容 的 重要 创造 者 之 一 ,同时 深刻 地 改变 了 企业 经 营 、 管 理 所 面 
临 的 环境 (Andriole,2010)。 利 用 在 线 平台 提供 的 信息 发 布 功 能 
网 络 用 户 可 以 轻松 发 布 与 企业 相关 的 信息 ,一 次 表达 自身 的 信念 
态度 .意见 和 情绪 ,从 而 形成 狭义 的 企业 与 情 。 比 如 通过 微 博客 
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论坛 ,用 户 可 以 发 表 关于 企业 动态 的 博文 .帖子 ,表达 自身 的 看 法 
与 见解 ; 通过 电子 商务 平台 ,用 户 可 以 发 表 针对 企业 产品 的 在 线 
评论 ,反馈 产品 的 使 用 体验 与 改进 意见 。 同 时 ,由 于 网 络 应 用 的 社 
会 性 特征 ,企业 相关 的 信息 会 被 推送 至 发 布 者 的 网 络 好 友和 关注 
者 ,并 通过 转发 . 跟 帖 和 分 享 等 操作 被 传播 至 更 广 的 范围 ,从 而 给 
企业 信誉 ,甚至 经 营 管理 带 来 巨大 的 影响 。 在 新 型 社会 网 络 大 数 
据 环境 下 ,企业 无 法 忽视 这 类 网 络 社会 与 情 给 企业 自身 营销 管理 、 
客户 关系 管理 .生产 管理 .信息 管理 以 及 财务 管理 等 诸多 方面 所 带 
来 的 重要 影响 ,同时 企业 管理 者 更 不 可 能 向 在 “世外桃源 ”的 环境 
里 ,置身 事 外 。 相 反 地 ,企业 的 管理 者 必须 正视 与 情 , 从 而 学 会 管 
理 , 控 制 ,甚至 引导 奥 情 ,并 尽量 降低 负面 与 情 对 企业 的 影响 。 因 
此 ,企业 需要 在 理 清 社会 网 络 大 数据 环境 下 企业 与 情 管理 特征 的 
基础 上 ,对 企业 的 原 有 管理 模式 进行 适应 性 的 改变 。 

第 一 ,企业 在 线 网 络 与 情 的 自 媒体 .社会 性 特征 给 企业 的 品 
资产 (brand equity) 管 理 (Aaker,2009) 带 来 了 前 所 未 有 的 机 遇 , 同 
时 也 提出 了 更 加 严峻 的 挑战 。 相 比 Web 1.0 时 代 网 络 用 户 的 浏览 
者 身份 定位 ,如 今 的 网 络 用 户 更 多 地 扮演 了 信息 生产 者 .传播 者 的 
角色 。 而 且 相 比 于 传统 的 广告 等 企业 推送 的 信息 ,网 络 用 户 自主 
创造 、 加 工 、 传 播 的 企业 与 情 更 能 得 到 其 他 网 络 用户 ( 好 友 ) 的 信 
赖 ,从 而 产生 更 广 .更 强 的 .更 有 价值 的 影响 (Archak 等 , 2011; 
Chen 和 Xie,2008) 。 企 业 在 线 网 络 与 情 传 播 的 这 些 特征 为 企业 扩 
大 品牌 知名 度 (brand awareness) (Keller. 2003) ,提升 品牌 认 知 度 
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(perceived quality) 提 供 了 便捷 、 有 效 的 渠道 。 另 一 方面 ,网 络 也 使 
得 企业 的 负面 消息 、 新 闻 能 够 得 到 更 快 、 更 广 地 传播 ,形成 不 利于 
企业 的 网 络 僵 情 。 而 且 相 比 于 正面 的 企业 网 络 与 情 , 负 面 企业 网 
络 与 情 更 容易 受到 网 络 用 户 的 关注 ,并 更 能 影响 网 络 用 户 对 企业 
的 认 知 (Bambauer-Sachse 和 Mangold, 2011; Zhu 和 Zhang, 
2010) 。 因 此 , 当 出 现 负 面 的 企业 网 络 与 情 时 ,如 何 及 时 、 准 确 地 采 
取 恰 当 措 施 阻止 或 延缓 负面 与 情 的 发 展 、 传 播 , 减 小 负面 与 情 对 企 
业 品 牌 资产 的 影响 ,成 为 企业 危机 公关 (crisis communication) 
(Fearn-Banks,2010) 中 面临 的 重要 问题 之 一 。 

第 二 ,社会 网 络 的 出 现 使 得 企业 决策 者 可 以 在 企业 市 场 细 分 
等 方面 实施 新 的 战略 。 社 会 网 络 上 各 种 具有 某 种 兴趣 或 偏好 的 团 
体 更 易于 出 现 和 被 企业 所 掌握 ,此 时 企业 的 营销 管理 就 需要 “与 时 
俱 进 ”。 与 传统 的 客户 分 类 不 同 , 在 现今 的 社会 网 络 中 ,用 户 的 分 
类 很 难 进行 准确 的 界定 ,市场 呈现 出 一 种 碎片 化 和 多 元 化 的 状态 。 
套用 “长 尾 理论 "就 是 : 长 尾部 分 商品 将 带 来 巨大 的 利润 。 换 句 话 
说 ,这 些 在 原 有 的 市 场 分 类 模式 中 ,处 于 碎片 化 或 称 * 散 户 ” 的 用 户 
可 能 会 给 企业 带 来 大 量 的 销售 利润 ,而 不 再 仅仅 是 传统 意义 上 的 
大 客户 销售 (或 管理 ) 的 问题 。 这 正 需 要 进一步 研究 ,这 也 是 近年 
来 一 个 流行 于 互联 网 企业 口号 “得 草根 者 得 天 下 ”的 根本 体现 。 这 
时 ,如 果 企 业 能 够 利用 微 博 、 微 信 、 即 时 通信 软件 等 社会 网 络 平台 
对 用 户 的 社会 网 络 活动 及 其 他 偏好 信息 进行 收集 、 处 理 和 智能 分 
析 , 以 此 精准 了 解 用 户 的 产品 喜好 ,实时 掌握 用 户 的 需求 动向 , 深 
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度 过 滤 用 户 的 特点 和 购买 意图 等 。 

第 三 ,社会 网 络 大 数据 环境 下 的 企业 与 情 也 给 企业 在 客户 获 
取 与 保留 (客户 关系 管理 ) (customer acquisition and retention) 方 
面 提出 了 新 的 要 求 。 社 会 网 络 商务 环境 下 的 企业 客户 既是 传统 意 
义 上 的 消费 者 ,也 有 作为 企业 产品 创作 者 的 成 分 。 不 同 于 传统 商 
务 模式 中 零散 的 买 家 结构 ,在 社会 网 络 背景 下 , 买 家 更 容易 形成 利 
益 团 体 , 从 而 在 一 定 程 度 上 降低 信息 的 不 对 称 性 ,提升 议价 能 力 等 
等 。 因 此 ,企业 可 以 利用 社会 网 络 的 用 户 社区 与 客户 及 潜在 客户 
建立 更 为 深入 的 联系 ,这 与 社交 网 络 中 的 虚拟 社区 是 一 致 的 。 企 
业 通 过 建立 产品 社区 .兴趣 社区 .互助 社区 等 ,与 用 户 建立 直接 ,高 
效 和 实时 的 联系 渠道 ,为 用 户 提 供 交 流 、 评 论 和 反馈 的 平台 ,以 此 
进一步 促进 客户 关系 的 提升 与 管理 优化 。 

第 四 ,在 价值 网 络 上 ,社会 网 络 大 数据 环境 下 的 企业 与 情 管理 
功能 包括 提升 企业 产品 和 服务 在 客户 中 的 认 知 水 平 、 帮 助 客户 评 
估 企 业 的 价值 主张 .协助 客户 购买 特定 产品 和 服务 以 及 提供 及 时 
有 效 的 售后 客户 支持 等 。 通 过 文本 挖掘 、 社 区 发 现 等 智能 数据 挖 
掘 分 析 方 法 可 以 找 出 社会 网 络 大 数据 环境 下 用 户 对 企业 产品 和 服 
务 的 讨论 ,然后 由 专门 的 人 员 进 行 回应 或 引导 ,从 而 提升 产品 或 服 
务 在 用 户 内 心 的 认 知 。 例 如 ,在 微 博 社 会 网 络 中 ,普通 的 微 博 用 户 
通过 关注 好 友 的 微 博 了 解 某 些 企业 的 产品 或 服务 ,以 此 来 评价 企 
业 价 值 主张 。 企 业 也 可 以 通过 合理 的 微 博 营 销 手段 (比如 微 博大 
V 的 推荐 等 ) 向 客户 传递 自己 企业 的 价值 主张 ,对 自身 企业 进行 宣 
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传 和 营销 ,以 此 改善 与 用 户 联系 的 渠道 通路 。 
第 五 ,在线 企业 与 情 也 给 企业 的 供应 商 选择 提供 了 更 多 的 可 
能 选择 以 及 更 加 全 面 的 信息 。 通 过 分 析 上 下 游 相 关 企业 的 在 线 与 
情 , 企 业 可 以 更 加 详细 地 了 人 解 .评估 相应 企业 的 生产 能 力 、 产 品 品 
质 和 业内 口碑 ,从 而 更 加 合适 地 选择 合作 伙伴 。 企 业 和 与 情 为 企业 
选择 合作 伙伴 提供 了 更 多 的 选择 ,以 及 更 加 丰富 的 参考 信息 
(Carter 和 Rogers,2008) 。 相 应 的 ,供应 链 上 下 游 企 业 也 会 通过 企 
业 与 情 来 判断 企业 的 生产 经 营 状 况 和 信用 人 情况。 因此 ,整个 供应 
链 上 下 游 的 企业 均 可 以 通过 在 线 与 情 了 解 彼此 的 信息 ,并 基于 企 
业 与 情 做 出 供应 链 合作 的 决策 。 这 就 使 得 企业 在 做 出 违约 等 破坏 
供应 链 合作 的 行为 时 ,必须 考虑 该 行为 对 企业 与 情 带 来 的 影响 ,以 
及 进一步 对 企业 今后 的 合作 带 来 的 影响 。 企 业 与 情 给 供应 链 上 下 
游 企业 间 的 合作 提供 了 一 种 无 形 的 约束 机 制 (Dellarocas,2003) 。 
综 上 所 述 , 社 会 网 络 大 数据 环境 中 的 在 线 与 情 改 变 了 企业 的 
经 营 ,管理 环境 ,使 得 企业 在 面 对 市 场 .消费 者 .上 下 游 企业 和 内 部 
管理 时 均 需 要 考虑 企业 与 情 带 来 的 变革 。 要 充分 利用 企业 与 情 带 
来 的 机 遇 并 应 对 相应 的 挑战 ,首先 需要 拥有 相应 的 技术 方法 能 够 
从 海量 的 富 媒 体 (rich media) 数 据 中 识别 出 与 企业 相关 的 信息 ,并 
分 析 企 业 与 情 中 网 络 用 户 所 讨论 的 话题 内 容 以 及 情感 倾向 ,从 而 
刻画 出 企业 与 情 的 状态 及 动态 变化 走势 。 基 于 企业 与 情 状 态 与 走 
势 的 刻画 ,企业 便 可 进一步 分 析 企 业 与 情 状 态 与 企业 经 营 管理 绩 
效 、 股 票 市 场 表现 等 的 关系 ,从 而 判断 企业 与 情 走 势 对 企业 表现 的 
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影响 。 同 时 ,基于 企业 与 情 走势 情况 ,企业 可 以 得 到 企业 与 情 传 
播 ,发展 的 规律 ,并 采用 相应 的 手段 方法 管理 企业 与 情 的 传播 与 
发 展 , 以 保证 企业 经 营 管理 目标 的 实现 。 


11.2 企业 社会 网 络 大 数据 与 情 管理 的 应 对 策略 


社会 网 络 大 数据 环境 下 的 企业 在 线 与 情 也 为 企业 的 产品 设计 
与 开发 提供 了 宝贵 的 市 场 反馈 信息 (market feedback) 。 社 会 网 络 
大 数据 环境 下 的 企业 与 情 中 包含 了 消费 者 大 量 关于 企业 产品 和 服 
务 的 使 用 体验 以 及 相应 的 意见 与 建议 ,反映 了 企业 产品 的 优势 与 
缺陷 (Zhang 等 ,2012), 为 企业 了 解 其 产品 的 市 场 接受 程度 
(market acceptance) 提 供 了 便捷 的 渠道 (Chen 等 ,2011)。 相 比 于 
传统 的 电话 回访 、 问 卷 调查 等 方式 ,在 线 企业 与 情 分 析 可 以 帮助 企 
业 以 更 低 的 成 本 更 加 真实 、 准 确 地 获取 消费 者 关于 企业 产品 和 服 
务 的 意见 反馈 ,从 而 有 针对 性 地 改进 产品 设计 和 服务 。 另 一 方面 ， 
企业 还 可 以 通过 分 析 相 关 企 业 的 在 线 与 情 , 了 解 相关 产品 的 市 场 
接受 情况 ,以 及 消费 者 对 于 本 企业 产品 和 相关 企业 产品 的 比较 评 
价 (Xu 等 ,2012)。 通 过 比较 企业 间 的 在 线 奥 情 , 可 以 帮助 企业 识 
别 竞 争 对 手 、 判 断 竞 争 程度 (Clark,1999; Ketchen 等 ,2004) ,并 根 
据 消费 者 意见 采纳 竞争 对 手 产品 的 合理 设计 。 
例如 ,在 微 博 中 ,有 针对 某 个 话题 进行 讨论 而 临时 建立 的 话题 
台 ( 通 常 是 以 “# 话 题 #” 的 形式 存在 ) ,这 种 临时 的 话题 平台 虽 
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然 不 如 专业 社区 功能 完善 ,但 也 将 对 一 些 企业 或 产品 有 相同 兴趣 
的 用 户 临时 的 集中 起 来 ,客户 可 以 在 这 个 话题 下 进行 讨论 ,从 而 获 
得 信任 或 权威 的 其 他 用 户 对 于 商品 或 服务 的 相关 意见 ,以 此 参与 
到 产品 的 营销 和 销售 互动 中 来 。 而 企业 的 管理 者 则 需要 敏锐 的 发 
掘 、 管 理 甚 至 制造 这 样 话题 平台 ,从 而 可 以 与 原 有 的 固定 社区 一 样 
帮助 .管理 和 促进 客户 关系 的 提升 。 

目前 ,很 多 企业 都 建立 了 微 博 公 众 平台 、 微 信 公 众 平台 、 企 业 
QQ 等 社会 网 络 媒体 官方 窗口 ,并 由 专门 的 人 员 进行 管 理 。 例 如 
在 平台 上 发 表 和 “收听 ”消息 ,通过 和 相关 人 员 交 流 、 参 加 社区 讨论 
等 。 用 户 在 产品 使 用 中 的 问题 等 都 可 以 通过 这 些 平台 与 企业 沟 
通 , 企 业 人 员 可 以 在 平台 上 对 用 户 的 评价 和 留言 进行 快速 的 回复 
处 理 。 这 样 就 扩展 了 原 有 的 只 能 通过 电话 和 邮件 与 售后 或 客服 人 
员 联 系 的 方式 ,使 厂家 可 以 与 客户 建立 更 加 紧密 迅捷 的 关系 。 

在 新 兴 社会 网 络 大 数据 环境 中 ,网 络 用 户 倾 向 于 在 具有 相同 
兴趣 、 爱 好 的 用 户 间接 收 并 传递 内 容 , 在 分 享 企业 及 其 产品 信息 的 
同时 传递 产品 偏好 。 相 比 于 传统 的 媒体 广告 等 方式 ,利用 网 络 用 
户 间 自 发 传递 的 企业 与 情 来 进行 客户 获取 ,能 够 使 企业 更 加 准确 
的 定位 目标 客户 ,获得 更 高 .更 长 远 的 客户 资产 和 企业 收益 
(Villanueva 等 ,2008) 。 

企业 与 情 在 客户 获取 方面 的 突出 表现 ,使 得 企业 必须 关注 新 
环境 下 基于 企业 与 情 的 客户 获取 策略 。 一 方面 ,企业 与 情 中 反应 
了 网 络 用 户 关 于 企业 产品 或 服务 的 意见 情况 ,为 企业 了 解 客户 的 


满意 程度 提供 一 种 新 的 途径 。 而 且 ,网 络 用户 所 处 社会 网 络 中 相 
邻 用 户 关 于 企业 产品 的 态度 和 行为 也 有 助 于 企业 准确 预测 该 用 户 
是 否 会 放弃 本 企业 产品 (Nitzan 和 Libai,2011)。 另 一 方面 ,企业 
需要 在 社会 网 络 大 数据 环境 中 基于 企业 与 情 分 析 来 预测 客户 流失 
(customer churn) 情 况 , 并 有 针对 性 地 设计 客户 挽回 措施 。 

鉴于 社会 网 络 大 数据 环境 中 的 企业 与 情 给 企业 经 营 、 管 理 带 
来 的 重大 机 遇 和 挑战 ,以 及 问题 本 身 的 理论 意义 和 价值 ,我 们 可 以 
针对 现 有 企业 与 情 研 究 中 的 不 足 和 缺失 开展 相应 的 研究 ,探索 新 
兴 社 会 网 络 大 数据 环境 下 在 线 熏 情 对 企业 绩效 的 影响 机 制 及 企业 
管理 网 络 与 情 的 理论 与 方法 。 


11.3 本章 小 结 


本 章 讨论 了 企业 在 社会 网 络 大 数据 环境 下 ,企业 社会 网 络 与 
情 给 企业 管理 的 各 种 挑战 ,并 讨论 了 相应 的 应 对 管理 策略 。 


1. 举例 说 明 企业 社会 网 络 与 情 给 企业 管理 的 挑战 。 
2. 列举 企业 在 社会 网 络 大 数据 环境 下 的 与 情 管理 应 对 策略 。 
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